Чтение файла asciif без разделителей Apache Pig Latin

Я пытаюсь прочитать текстовый файл на Apache Pig Latin, в котором каждая строка содержит ascii без разделителей. То есть каждый столбец в этой строке начинается и заканчивается в определенной позиции в строке.

Образец определения:

+--------+----------------+--------------+
| Column | Start Position | End Position |
+--------+----------------+--------------+
| A      | 1              | 6            |
+--------+----------------+--------------+
| B      | 8              | 11           |
+--------+----------------+--------------+
| C      | 13             | 15           |
+--------+----------------+--------------+

Образец данных:

+---+---+---+---+---+---+---+----+---+----+----+----+----+----+----+
| 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8  | 9 | 10 | 11 | 12 | 13 | 14 | 15 |
+---+---+---+---+---+---+---+----+---+----+----+----+----+----+----+
| s | a | m | p | l | e |   | d  | a | t  | a  |    |    | h  | i  |
+---+---+---+---+---+---+---+----+---+----+----+----+----+----+----+
| d | u | d | e |   |   |   | hi |   |    |    |    | b  | r  | o  |
+---+---+---+---+---+---+---+----+---+----+----+----+----+----+----+

Ожидаемый результат:

sample, data, hi
dude, hi, bro

Как я могу прочитать это в Pig? PigStorage не кажется достаточно гибким, чтобы разрешить позиционное разграничение, только разграничение строк (запятая, табуляция и т. д.).

ph34r 08.07.2016 источник

Ответы (1)

arrow_upward
0
arrow_downward

Похоже, Apache предоставляет загрузчик для этого конкретного варианта использования:

LOAD 'data.txt' USING org.apache.pig.piggybank.storage.FixedWidthLoader('1-6, 8-11, 13-15', 'SKIP_HEADER') AS (a, b, c);

https://pig.apache.org/docs/r0.16.0/api/

ph34r 08.07.2016

Вопросы по теме

Сортировать строки в столбце и печатать график
Преобразовать короткие биты в целые
Загрузить изображение с idhttp indy9 delphi7
Как получить ассоциации activerecord через отражение
Сравните изображение BLOB с изображениями, хранящимися как ORDImage, с помощью неподвижного изображения SQL/MM.
Для Apache Pig, как мне написать Load UDF в python
R {xml_node} в обычный текст с сохранением тегов?
TypeScript в онлайн-сборке Visual Studio
как конвертировать html в сенча тач
Индекс Lucene: отсутствующие документы
Установка Jboss ON ожидает сервера
Общий метод, который принимает уникальный параметр и возвращает уникальные параметры Java
Как получить все определенные типы?
Как указать указатель в качестве хранилища thread_local в С++?
Использование VB.NET для отправки уведомления эмулятору Android с ошибкой 401
Laravel — Разбить случайные записи на страницы
Lua Сравните несколько значений таблицы
Создание структуры каталогов в формате JSON для использования виджетом дерева Webix
Невозможно щелкнуть SubMenu с помощью веб-драйвера selenium
SL 4: Странное поведение с шаблонным управлением