Итак, давайте посмотрим, смогу ли я кратко объяснить мою проблему.
Представьте, что у нас есть таблица HBase, содержащая информацию о каждом посещении дискотеки: каждая дискотека регистрирует свое имя, имя посетителя и день< /em> он посетил его. (да, это глупый пример, я знаю..).
Так, например, это будут некоторые значения таблицы:
..
ministryOfSoundJamesOliver01022017
ministryOfSoundJamesOliver02022017
ministryOfSoundJamesOliver03022017
ministryOfSoundOliviaNewton04042017
ministryOfSoundOliviaNewton06042017
...
pachaibizaJohnMcKiness06042017
pachaibizaJohnMcKiness04042017
pachaibizaWilliamForrester04042017
..
RowKey имеет следующую структуру:
discoName
имя человека
ДеньГода
(в таблице есть некоторые другие столбцы/квалификаторы, но я не возражаю против них в этой проблеме).
Проблема в следующем: представьте мальчика, которому просто нравится ходить в Министерство звука. Ему это просто нравится, он тратит все свои деньги на дискотеки и наркотики (но здесь не в этом дело).
Моя цель — вывести всех, кто посещал Министерство звука. В моем сканировании этот чувак постоянно появляется в результатах, поэтому я должен отбросить много записей в поисках следующего посетителя. ФЭ:
..
ministryOfSoundJohnnyYonkie01022017
ministryOfSoundJohnnyYonkie02022017
ministryOfSoundJohnnyYonkie03022017
ministryOfSoundJohnnyYonkie04022017
ministryOfSoundJohnnyYonkie05022017
ministryOfSoundAnotherDude02022017
...
Чтобы зарегистрировать AnotherDude, я должен удалить 4 записи от Johnny.
Наконец, вопрос:
Есть ли способ сообщить HBase, что повторяющиеся записи от байта (x) до байта (x + y) [ x — количество байтов от discoName
и y количество байтов от personName
] должны быть < strong>автоматически отбрасывается?
Заранее большое спасибо!!