Вопросы по теме 'apache-pig'
Как я могу загрузить каждый файл в папку с помощью PIG?
У меня есть папка с файлами, создаваемыми ежедневно, в которых хранится информация одного типа. Я хотел бы создать скрипт, который загружает 10 новейших из них, объединяет их, а затем запускает на них какой-то другой код. Поскольку у pig уже есть...
7454 просмотров
schedule
14.01.2024
Не удалось устранить ОШИБКУ 2017: внутренняя ошибка при создании конфигурации задания в EMR при запуске PIG
Я пытался выполнить очень простую задачу с Pig на Amazon EMR. Когда я запускаю команды в интерактивной оболочке, все работает нормально. Но когда я запускаю то же самое, что и пакетное задание, я получаю
[main] ОШИБКА...
1981 просмотров
schedule
17.11.2023
Поддержка SAX Parser в Apache Pig
Я работаю над UDF для обработки файлов XML в кластере Hadoop. Я использую PIG для загрузки файлов XML, а затем использую свой UDF для выравнивания структуры данных XML.
Моя текущая реализация использует синтаксический анализатор DOM, и мне не...
247 просмотров
schedule
14.11.2023
Для Apache Pig, как мне написать Load UDF в python
Я хочу написать функцию загрузки UDF Python для Apache Pig, чтобы я мог использовать ее в сценарии Pig следующим образом:
register 'myudfs.py' using jython as myfuncs;
A = load 'data' using myfuncs.myLoader() as line;
документация по Pig...
1574 просмотров
schedule
21.01.2024
Как написать Pig UDF на Scala
Я пытаюсь написать Pig UDF в Scala (используя Eclipse). Я добавил pig.jar в качестве библиотеки в путь сборки java, который, кажется, разрешает 2 импорта ниже:
импортировать org.apache.pig.EvalFunc
импортировать org.apache.pig.data.Tuple...
1873 просмотров
schedule
20.12.2023
Потоковые данные как объект json в свинье
У меня есть скрипт, который принимает сложные объекты json (по одному на строку) на входе и выводит в формате hadoc. Я хотел бы использовать свинью для потоковой передачи данных через этот скрипт с помощью STREAM. Как я могу заставить свинью...
177 просмотров
schedule
29.12.2023
Обработка сложного XML в Hadoop для извлечения данных
Я хочу обработать отформатированный XML в Hadoop, который довольно сложен и огромен, а также содержит циклы.
Я пробовал следующие варианты:
Загружать XML-файлы в Hive в виде одного столбца и использовать запросы XPATH.
Создайте таблицу Hive...
795 просмотров
schedule
01.01.2024
Расширение столбцов с разделителями до динамических значений в Apache Pig
У меня есть некоторые данные в интересном формате. Это вот так:
ID Name Info
1 Joe quality=82,activity=23,age:rank:foo,21:0/1:30
2 Bob activity=32,age:foo,22:31,quality=43
3 Mary...
98 просмотров
schedule
03.11.2023
Свинья UDF java вне индекса
У меня проблема с доступом к свинке с моим UDF. Я сделал группировку "Group BY" и получил вывод, который есть (Andi, 19495) и описывается свиньей как C: {group: chararray, long} . Теперь я хотел бы отформатировать вывод (Andi 19495) в виде строки....
178 просмотров
schedule
13.11.2023
Чтение файла asciif без разделителей Apache Pig Latin
Я пытаюсь прочитать текстовый файл на Apache Pig Latin, в котором каждая строка содержит ascii без разделителей. То есть каждый столбец в этой строке начинается и заканчивается в определенной позиции в строке.
Образец определения:...
47 просмотров
schedule
23.12.2023