คำถามในหัวข้อ 'bigdata'

วิธีที่มีประสิทธิภาพมากที่สุดในการเปลี่ยนชื่อคอลัมน์ใน data.table คืออะไร?
บางครั้งก่อนที่จะรวม จะมีประโยชน์ที่จะเปลี่ยนชื่อคอลัมน์เพื่อความสอดคล้องกัน เมื่อทำงานกับ data.frame สิ่งนี้ค่อนข้างตรงไปตรงมา (ตามที่ระบุไว้ ที่นี่ ); แม้ว่าโซลูชันเดียวกันนี้จะใช้ได้กับ ``data.table` แต่ก็ส่งคำเตือนออกมา ตัวอย่างเช่น, ran...
1381 มุมมอง
schedule 06.12.2023

เมทริกซ์ HDF5 ผนวกใน python
ตัวอย่างเช่น เรามีเมทริกซ์ (เช่น เราต้องการเก็บอาร์เรย์ numpy) และเราเก็บไว้ในไฟล์ HDF5 แต่จากนั้นเราต้องการขยายเมทริกซ์โดยการต่อท้ายแถวบางแถวที่ส่วนท้ายของเมทริกซ์ดั้งเดิม (คำนึงว่าเมทริกซ์ดั้งเดิมสามารถมีได้มาก ใหญ่ประมาณสิบ Gb และไม่สามารถโหลดลงใน...
2149 มุมมอง
schedule 28.11.2023

Hive - ตรวจสอบว่าอาร์เรย์ในแต่ละแถวของตารางมีข้อมูลที่ตรงกันในคอลัมน์ของตารางอื่นหรือไม่
ฉันมีสองตารางที่มีคอลัมน์ดังที่แสดงด้านล่าง Posts: user STRING, tag_list ARRAY<STRING> Tags: tag STRING นี่คือข้อมูลตัวอย่างบางส่วนในตารางเหล่านั้น Posts: user1 help, pig user2 bigdata, hadoop, query, hiveql user1 hive,...
6309 มุมมอง
schedule 15.11.2023

อะไรคือความแตกต่างระหว่าง Foreman และ Hue สำหรับ Hadoop?
ในการค้นคว้าแพลตฟอร์มการบริหารระบบต่างๆ ฉันต้องการทราบความแตกต่างระหว่างเมื่อใดที่ควร/ไม่ใช้ Foreman และ Hue สำหรับ Hadoop/HDFS ขอบคุณ
157 มุมมอง
schedule 26.11.2023

งาน SparkR หมดเวลา 100 นาที
ฉันได้เขียนสคริปต์ sparkR ที่ซับซ้อนเล็กน้อยแล้วรันโดยใช้ spark-submit โดยทั่วไปสคริปต์ทำอะไรคืออ่านตารางไม้ปาร์เก้ไฮฟ์/อิมพาลาขนาดใหญ่ทีละแถวและสร้างไฟล์ไม้ปาร์เก้ใหม่ที่มีจำนวนแถวเท่ากัน แต่ดูเหมือนว่างานจะหยุดหลังจากผ่านไปประมาณ 100 นาที...
1517 มุมมอง
schedule 11.11.2023

เกิดข้อผิดพลาดขณะสตรีมข้อมูล Twitter
ฉันใช้ CDH 4.7 และพยายามดาวน์โหลดข้อมูลสตรีมมิ่ง Twitter ลงใน Hadoop โดยใช้ Flume ฉันกำลังดำเนินการคำสั่งต่อไปนี้ แต่มันแสดงปัญหาการอนุญาตที่ถูกปฏิเสธในเส้นทาง /user/flume จะแก้ไขปัญหานี้ได้อย่างไร? [cloudera@localhost flume-ng]$ bin/flume-ng...
167 มุมมอง

อ่านไฟล์ asciif แบบไม่คั่นด้วย Apache Pig Latin
ฉันกำลังพยายามอ่านไฟล์ข้อความใน Apache Pig Latin ที่มี ASCII แบบไม่คั่นซึ่งประกอบด้วยแต่ละแถว กล่าวคือ แต่ละคอลัมน์ในแถวนั้นเริ่มต้นและสิ้นสุดที่ตำแหน่งเฉพาะในแถว คำจำกัดความตัวอย่าง: +--------+----------------+--------------+ | Column | Start...
47 มุมมอง
schedule 23.12.2023

การสแกน HBase - ตัวกรอง RowKey
มาดูกันว่าฉันสามารถอธิบายปัญหาของฉันโดยย่อได้หรือไม่ ลองนึกภาพเรามีตาราง HBase ที่มีข้อมูลของการเยี่ยมชมดิสโก้ทุกครั้ง: ดิสโก้ทุกแห่งจะลงทะเบียน ชื่อ , ชื่อของผู้เยี่ยมชม และ วัน เขาไปเยี่ยมมัน ( ใช่ มันเป็นตัวอย่างโง่ๆ ฉันรู้ .. )...
2104 มุมมอง
schedule 31.10.2023

การฝึกอบรมชุดย่อยของตัวแยกประเภท scikit-learn โดยที่ฉันจัดเตรียมชุดย่อยไว้
ฉันมีชุดข้อมูลขนาดใหญ่มากที่ไม่สามารถโหลดลงในหน่วยความจำได้ ฉันต้องการใช้ชุดข้อมูลนี้เป็นชุดการฝึกอบรมของตัวแยกประเภท scikit-learn เช่น LogisticRegression มีความเป็นไปได้ที่จะทำการฝึกอบรมชุดย่อยของตัวแยกประเภท scikit-learn...
8475 มุมมอง
schedule 24.12.2023

จะดาวน์โหลดไฟล์ Hadoop (บน HDFS) ผ่าน FTP ได้อย่างไร
ฉันต้องการใช้งาน SSIS ที่สามารถดาวน์โหลดไฟล์ CSV ขนาดใหญ่ที่อยู่บนคลัสเตอร์ Hadoop ระยะไกลได้ แน่นอนว่าการมีเซิร์ฟเวอร์ FTP ปกติบนระบบ Hadoop จะไม่เปิดเผยไฟล์ HDFS เนื่องจากใช้ระบบไฟล์ในเครื่อง ฉันต้องการทราบว่ามีการใช้งานเซิร์ฟเวอร์ FTP...
710 มุมมอง
schedule 26.11.2023

ค่าคีย์สูงสุดในการดำเนินการตาม rdd ใน pyspark
ฉันยังใหม่ต่อการดำเนินการตาม rdd ฉันกำลังพยายามทำความเข้าใจคีย์-ค่าสูงสุด ฉันมี rdd เช่นนี้: RDD = sc.parallelize([("A", 2, 1), ("C", 8, 5), ("B", 3, 4), ("A", 7, 5), ("C", 5, 8), ("C", 6, 10), ("B", 10, 6)]) ฉันต้องหาองค์ประกอบที่ 2...
21 มุมมอง
schedule 08.12.2023