ฉันเป็นคนใหม่ในจุดประกาย ฉันต้องการตั้งค่าการสตรีมแบบ Spark เพื่อดึงคู่ค่าคีย์ของไฟล์รูปแบบด้านล่าง:
ไฟล์: info1
หมายเหตุ: แต่ละไฟล์ข้อมูลจะมีบันทึกเหล่านี้ประมาณ 1,000 รายการ และระบบของเรากำลังสร้างไฟล์ข้อมูลเหล่านี้อย่างต่อเนื่อง ฉันต้องการทำการแมปหมายเลขบรรทัดและไฟล์ข้อมูลและต้องการผลลัพธ์รวม
เราสามารถป้อนข้อมูลให้กับไฟล์ประเภทนี้ให้กับคลัสเตอร์ Spark ได้หรือไม่? ฉันสนใจตัวคั่น "SF" และ "DA" เท่านั้น "SF" สอดคล้องกับไฟล์ต้นฉบับและ "DA" สอดคล้องกับ ( หมายเลขบรรทัด, นับ)
เนื่องจากข้อมูลอินพุตนี้ไม่ใช่รูปแบบเส้น ดังนั้นนี่เป็นความคิดที่ดีที่จะใช้ไฟล์เหล่านี้สำหรับอินพุตแบบประกายไฟ หรือฉันควรต้องทำขั้นตอนตัวกลางซึ่งฉันต้องล้างไฟล์เหล่านี้เพื่อสร้างไฟล์ใหม่ซึ่งจะมีข้อมูลบันทึกแต่ละรายการ เข้าแถวแทนที่จะเป็นบล็อกเหรอ?
หรือเราสามารถบรรลุเป้าหมายนี้ได้ด้วย Spark เอง? แนวทางที่ถูกต้องควรเป็นอย่างไร?
ฉันต้องการบรรลุอะไร? ฉันต้องการรับข้อมูลระดับบรรทัด หมายถึงการรับบรรทัด (เป็นคีย์) และไฟล์ข้อมูล (เป็นค่า)
ผลลัพธ์สุดท้ายที่ฉันต้องการมีดังนี้: line178 -> (info1, info2, info7.................)
บรรทัด 2908 -> (info3, info90, ..., ... ,)
โปรดแจ้งให้เราทราบหากคำอธิบายของฉันไม่ชัดเจนหรือถ้าฉันขาดหายไป
ขอขอบคุณและขอแสดงความนับถือ Vinti