Saya mencatat kunjungan halaman dan permintaan pencarian (semacam analisis aliran klik) ke kafka. Saya bermaksud untuk memprosesnya secara batch secara berkala, katakanlah per jam atau per hari, dan kemudian menulis hasil agregat ke elasticsearch.
Jika tidak ditulis ke kafka, melainkan ke sistem file, mudah untuk mengkonfigurasi logger untuk menulis ke file dengan cap waktu di nama file, yang secara otomatis memisahkan log menurut interval jam/hari.
Namun dengan kafka, saya cukup sering mencari di Google dan belum menemukan contoh pembuatan topik baru per jam/hari. Tanpa membuat topik baru per jam/hari, saya hanya bisa membayangkan memindahkan log dari kafka ke sistem file atau hdfs melalui logstash/flume.
Apakah jarang melakukan pemrosesan batch (per jam/hari) di kafka secara langsung?
CreatedTime
dalam data mungkin tidak diurutkan. Akan sulit untuk menentukan batasan setiap hari (walaupun sedikit ketidakakuratan mungkin tidak masalah dalam kasus saya). Jika ada topik yang ditulis berbeda, saya dapat dengan mudah memeriksa apakah waktu modifikasi terakhir suatu topik jauh lebih awal daripada waktu saat ini (dengan asumsi batch saya berjalan pada 00:10 setiap hari). - person foresightyj   schedule 20.07.2017