คำถามในหัวข้อ 'bigdata'
วิธีที่มีประสิทธิภาพมากที่สุดในการเปลี่ยนชื่อคอลัมน์ใน data.table คืออะไร?
บางครั้งก่อนที่จะรวม จะมีประโยชน์ที่จะเปลี่ยนชื่อคอลัมน์เพื่อความสอดคล้องกัน เมื่อทำงานกับ data.frame สิ่งนี้ค่อนข้างตรงไปตรงมา (ตามที่ระบุไว้ ที่นี่ ); แม้ว่าโซลูชันเดียวกันนี้จะใช้ได้กับ ``data.table` แต่ก็ส่งคำเตือนออกมา ตัวอย่างเช่น,
ran...
1381 มุมมอง
schedule
06.12.2023
เมทริกซ์ HDF5 ผนวกใน python
ตัวอย่างเช่น เรามีเมทริกซ์ (เช่น เราต้องการเก็บอาร์เรย์ numpy) และเราเก็บไว้ในไฟล์ HDF5 แต่จากนั้นเราต้องการขยายเมทริกซ์โดยการต่อท้ายแถวบางแถวที่ส่วนท้ายของเมทริกซ์ดั้งเดิม (คำนึงว่าเมทริกซ์ดั้งเดิมสามารถมีได้มาก ใหญ่ประมาณสิบ Gb และไม่สามารถโหลดลงใน...
2149 มุมมอง
schedule
28.11.2023
Hive - ตรวจสอบว่าอาร์เรย์ในแต่ละแถวของตารางมีข้อมูลที่ตรงกันในคอลัมน์ของตารางอื่นหรือไม่
ฉันมีสองตารางที่มีคอลัมน์ดังที่แสดงด้านล่าง
Posts:
user STRING,
tag_list ARRAY<STRING>
Tags:
tag STRING
นี่คือข้อมูลตัวอย่างบางส่วนในตารางเหล่านั้น
Posts:
user1 help, pig
user2 bigdata, hadoop, query, hiveql
user1 hive,...
6309 มุมมอง
schedule
15.11.2023
อะไรคือความแตกต่างระหว่าง Foreman และ Hue สำหรับ Hadoop?
ในการค้นคว้าแพลตฟอร์มการบริหารระบบต่างๆ ฉันต้องการทราบความแตกต่างระหว่างเมื่อใดที่ควร/ไม่ใช้ Foreman และ Hue สำหรับ Hadoop/HDFS
ขอบคุณ
157 มุมมอง
schedule
26.11.2023
งาน SparkR หมดเวลา 100 นาที
ฉันได้เขียนสคริปต์ sparkR ที่ซับซ้อนเล็กน้อยแล้วรันโดยใช้ spark-submit โดยทั่วไปสคริปต์ทำอะไรคืออ่านตารางไม้ปาร์เก้ไฮฟ์/อิมพาลาขนาดใหญ่ทีละแถวและสร้างไฟล์ไม้ปาร์เก้ใหม่ที่มีจำนวนแถวเท่ากัน แต่ดูเหมือนว่างานจะหยุดหลังจากผ่านไปประมาณ 100 นาที...
1517 มุมมอง
schedule
11.11.2023
เกิดข้อผิดพลาดขณะสตรีมข้อมูล Twitter
ฉันใช้ CDH 4.7 และพยายามดาวน์โหลดข้อมูลสตรีมมิ่ง Twitter ลงใน Hadoop โดยใช้ Flume ฉันกำลังดำเนินการคำสั่งต่อไปนี้ แต่มันแสดงปัญหาการอนุญาตที่ถูกปฏิเสธในเส้นทาง /user/flume
จะแก้ไขปัญหานี้ได้อย่างไร?
[cloudera@localhost flume-ng]$ bin/flume-ng...
167 มุมมอง
schedule
05.01.2024
อ่านไฟล์ asciif แบบไม่คั่นด้วย Apache Pig Latin
ฉันกำลังพยายามอ่านไฟล์ข้อความใน Apache Pig Latin ที่มี ASCII แบบไม่คั่นซึ่งประกอบด้วยแต่ละแถว กล่าวคือ แต่ละคอลัมน์ในแถวนั้นเริ่มต้นและสิ้นสุดที่ตำแหน่งเฉพาะในแถว
คำจำกัดความตัวอย่าง:
+--------+----------------+--------------+
| Column | Start...
47 มุมมอง
schedule
23.12.2023
การสแกน HBase - ตัวกรอง RowKey
มาดูกันว่าฉันสามารถอธิบายปัญหาของฉันโดยย่อได้หรือไม่
ลองนึกภาพเรามีตาราง HBase ที่มีข้อมูลของการเยี่ยมชมดิสโก้ทุกครั้ง: ดิสโก้ทุกแห่งจะลงทะเบียน ชื่อ , ชื่อของผู้เยี่ยมชม และ วัน เขาไปเยี่ยมมัน ( ใช่ มันเป็นตัวอย่างโง่ๆ ฉันรู้ .. )...
2104 มุมมอง
schedule
31.10.2023
การฝึกอบรมชุดย่อยของตัวแยกประเภท scikit-learn โดยที่ฉันจัดเตรียมชุดย่อยไว้
ฉันมีชุดข้อมูลขนาดใหญ่มากที่ไม่สามารถโหลดลงในหน่วยความจำได้
ฉันต้องการใช้ชุดข้อมูลนี้เป็นชุดการฝึกอบรมของตัวแยกประเภท scikit-learn เช่น LogisticRegression
มีความเป็นไปได้ที่จะทำการฝึกอบรมชุดย่อยของตัวแยกประเภท scikit-learn...
8475 มุมมอง
schedule
24.12.2023
จะดาวน์โหลดไฟล์ Hadoop (บน HDFS) ผ่าน FTP ได้อย่างไร
ฉันต้องการใช้งาน SSIS ที่สามารถดาวน์โหลดไฟล์ CSV ขนาดใหญ่ที่อยู่บนคลัสเตอร์ Hadoop ระยะไกลได้ แน่นอนว่าการมีเซิร์ฟเวอร์ FTP ปกติบนระบบ Hadoop จะไม่เปิดเผยไฟล์ HDFS เนื่องจากใช้ระบบไฟล์ในเครื่อง
ฉันต้องการทราบว่ามีการใช้งานเซิร์ฟเวอร์ FTP...
710 มุมมอง
schedule
26.11.2023
ค่าคีย์สูงสุดในการดำเนินการตาม rdd ใน pyspark
ฉันยังใหม่ต่อการดำเนินการตาม rdd ฉันกำลังพยายามทำความเข้าใจคีย์-ค่าสูงสุด ฉันมี rdd เช่นนี้:
RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)])
ฉันต้องหาองค์ประกอบที่ 2...
21 มุมมอง
schedule
08.12.2023