Я регистрирую посещения страниц и поисковые запросы (какой-то анализ потока кликов) в kafka. Я намерен периодически обрабатывать их в пакетном режиме, скажем, в час или в день, а затем записывать агрегированные результаты в elasticsearch.
Если он пишется не в kafka, а в файловую систему, то легко настроить логгер на запись в файл с отметкой времени в имени файла, что автоматически разделяет логи по интервалам час/день.
Но с kafka я гуглил достаточно раз и еще не нашел примеров создания новой темы в час/день. Не создавая новую тему в час/день, я могу только представить перемещение журналов из kafka в файловую систему или hdfs через logstash/flume.
Редко ли можно выполнять пакетную обработку (в час/день) непосредственно на kafka?
CreatedTime
в данных может быть неупорядоченным. Будет сложно определить границы каждого дня (хотя небольшая неточность в моем случае может быть допустима). Если есть записи в разных темах, я могу легко проверить, является ли время последнего изменения конкретной темы значительно более ранним, чем текущее время (при условии, что мой пакет запускается в 00:10 каждый день). - person foresightyj   schedule 20.07.2017