ฉันกำลังบันทึกการเข้าชมหน้าและคำค้นหา (การวิเคราะห์สตรีมการคลิกบางประเภท) ไปที่คาฟคา ฉันตั้งใจที่จะประมวลผลพวกมันเป็นชุดเป็นระยะ เช่น ต่อชั่วโมงหรือต่อวัน จากนั้นจึงเขียนผลลัพธ์แบบรวมไปยัง ElasticSearch
หากไม่ได้เขียนลงใน kafka แต่เขียนลงในระบบไฟล์ เป็นเรื่องง่ายที่จะกำหนดค่าตัวบันทึกให้เขียนลงในไฟล์ที่มีการประทับเวลาในชื่อไฟล์ ซึ่งจะแยกบันทึกโดยอัตโนมัติตามช่วงเวลาชั่วโมง/วัน
แต่ด้วยคาฟคา ฉันค้นหาในกูเกิ้ลหลายครั้ง แต่ยังไม่พบตัวอย่างการสร้างหัวข้อใหม่ต่อชั่วโมง/วัน โดยไม่ต้องสร้างหัวข้อใหม่ต่อชั่วโมง/วัน ฉันจินตนาการได้แค่การย้ายบันทึกจาก kafka ไปยังระบบไฟล์หรือ hdfs ผ่าน logstash/flume
การประมวลผลแบบแบตช์ (ต่อชั่วโมง/วัน) บนคาฟคาโดยตรงเป็นเรื่องยากไหม
CreatedTime
ในข้อมูลอาจไม่ได้รับการเรียงลำดับ การกำหนดขอบเขตของแต่ละวันจะเป็นเรื่องยาก (แม้ว่าในกรณีของฉันอาจมีความคลาดเคลื่อนเล็กน้อยก็ตาม) หากมีการเขียนหัวข้อต่างๆ ฉันสามารถตรวจสอบได้อย่างง่ายดายว่าเวลาที่แก้ไขล่าสุดของหัวข้อนั้นเร็วกว่าเวลาปัจจุบันอย่างมากหรือไม่ (สมมติว่าชุดงานของฉันทำงานเวลา 00:10 น. ทุกวัน) - person foresightyj   schedule 20.07.2017