คำถามในหัวข้อ 'apache-pig'

ฉันจะโหลดทุกไฟล์ในโฟลเดอร์โดยใช้ PIG ได้อย่างไร
ฉันมีโฟลเดอร์ไฟล์ที่สร้างขึ้นทุกวันซึ่งทั้งหมดจะจัดเก็บข้อมูลประเภทเดียวกัน ฉันต้องการสร้างสคริปต์ที่โหลด 10 ตัวใหม่ล่าสุด UNION พวกมัน แล้วรันโค้ดอื่น ๆ กับพวกมัน เนื่องจาก pig มีวิธี ls อยู่แล้ว ฉันจึงสงสัยว่ามีวิธีง่ายๆ...
7454 มุมมอง
schedule 14.01.2024

ไม่สามารถแก้ไขข้อผิดพลาด 2017: ข้อผิดพลาดภายในในการสร้างการกำหนดค่างานบน EMR เมื่อเรียกใช้ PIG
ฉันพยายามรันงานง่ายๆ ด้วย Pig บน Amazon EMR เมื่อฉันรันคำสั่งในเชลล์เชิงโต้ตอบ ทุกอย่างทำงานได้ดี แต่เมื่อฉันดำเนินการแบบเดียวกับงานแบทช์ ฉันก็ได้ [หลัก] ข้อผิดพลาด org.apache.pig.tools.grunt.Grunt - ข้อผิดพลาด 2017:...
1981 มุมมอง
schedule 17.11.2023

รองรับ SAX Parser ใน Apache Pig
ฉันกำลังทำงานกับ UDF เพื่อประมวลผลไฟล์ XML บนคลัสเตอร์ Hadoop ฉันใช้ PIG เพื่อโหลดไฟล์ XML จากนั้นฉันใช้ UDF เพื่อทำให้โครงสร้างของข้อมูล XML เรียบลง การใช้งานปัจจุบันของฉันคือการใช้ตัวแยกวิเคราะห์ DOM และฉันไม่จำเป็นต้องรวมขวดตัวแยกวิเคราะห์ DOM...
247 มุมมอง
schedule 14.11.2023

สำหรับ Apache Pig ฉันจะเขียน Load UDF ใน python ได้อย่างไร
ฉันต้องการเขียนฟังก์ชัน Python UDF Load สำหรับ Apache Pig เพื่อให้สามารถใช้งานได้ในลักษณะต่อไปนี้ในสคริปต์ Pig: register 'myudfs.py' using jython as myfuncs; A = load 'data' using myfuncs.myLoader() as line; เอกสารประกอบของ Pig...
1574 มุมมอง

วิธีเขียน Pig UDF ใน Scala
ฉันกำลังพยายามเขียน Pig UDF ใน Scala (โดยใช้ Eclipse) ฉันได้เพิ่ม pig.jar เป็นไลบรารีในเส้นทางการสร้าง java ซึ่งดูเหมือนว่าจะแก้ไขการนำเข้า 2 รายการด้านล่าง: นำเข้า org.apache.pig.EvalFunc นำเข้า org.apache.pig.data.Tuple อย่างไรก็ตาม...
1873 มุมมอง
schedule 20.12.2023

สตรีมข้อมูลเป็นวัตถุ json ใน pig
ฉันมีสคริปต์ที่ใช้วัตถุ json ที่ซับซ้อน (หนึ่งรายการต่อบรรทัด) ในอินพุตและเอาต์พุตในรูปแบบ hadoc ฉันต้องการใช้ pig เพื่อสตรีมข้อมูลบางอย่างผ่านสคริปต์นี้โดยใช้ STREAM ฉันจะบังคับให้ Pig ส่งข้อมูลไปยังสตรีมมิ่งในรูปแบบ json ได้อย่างไร...
177 มุมมอง
schedule 29.12.2023

การประมวลผล XML ที่ซับซ้อนใน Hadoop เพื่อดึงข้อมูล
ฉันต้องการประมวลผล XML ที่จัดรูปแบบแล้วใน Hadoop ซึ่งค่อนข้างซับซ้อนและใหญ่มาก และยังมีลูปด้วย ฉันลองตัวเลือกต่อไปนี้: โหลด XML ลงใน Hive เป็นคอลัมน์เดียวและใช้คำสั่ง XPATH สร้างตาราง Hive โดยใช้ SerDe โหลด XML โดยใช้ PIG โดยใช้ XMLLoader...
795 มุมมอง
schedule 01.01.2024

ขยายคอลัมน์ที่ใช้ตัวคั่นเป็นค่าไดนามิกใน Apache Pig
ฉันมีข้อมูลในรูปแบบที่น่าสนใจ มันเป็นเช่นนี้: ID Name Info 1 Joe quality=82,activity=23,age:rank:foo,21:0/1:30 2 Bob activity=32,age:foo,22:31,quality=43 3 Mary foo:age:rank,24:23:1/1,quality=62,activity=14...
98 มุมมอง
schedule 03.11.2023

Pig UDF java ไม่อยู่ในดัชนี
ฉันมีปัญหาในการเข้าถึง pig ด้วย UDF ของฉัน ฉันได้ทำการจัดกลุ่ม "จัดกลุ่มตาม" ที่ได้รับผลลัพธ์ซึ่งก็คือ (Andi, 19495) และอธิบายโดย pig เป็น C: {group: chararray, long} ตอนนี้ฉันต้องการจัดรูปแบบเอาต์พุตเป็น (Andi 19495) เป็นสตริง แต่ UDF...
178 มุมมอง
schedule 13.11.2023

อ่านไฟล์ asciif แบบไม่คั่นด้วย Apache Pig Latin
ฉันกำลังพยายามอ่านไฟล์ข้อความใน Apache Pig Latin ที่มี ASCII แบบไม่คั่นซึ่งประกอบด้วยแต่ละแถว กล่าวคือ แต่ละคอลัมน์ในแถวนั้นเริ่มต้นและสิ้นสุดที่ตำแหน่งเฉพาะในแถว คำจำกัดความตัวอย่าง: +--------+----------------+--------------+ | Column | Start...
47 มุมมอง
schedule 23.12.2023