Вопросы по теме 'apache-pig'

Как я могу загрузить каждый файл в папку с помощью PIG?
У меня есть папка с файлами, создаваемыми ежедневно, в которых хранится информация одного типа. Я хотел бы создать скрипт, который загружает 10 новейших из них, объединяет их, а затем запускает на них какой-то другой код. Поскольку у pig уже есть...
7454 просмотров
schedule 14.01.2024

Не удалось устранить ОШИБКУ 2017: внутренняя ошибка при создании конфигурации задания в EMR при запуске PIG
Я пытался выполнить очень простую задачу с Pig на Amazon EMR. Когда я запускаю команды в интерактивной оболочке, все работает нормально. Но когда я запускаю то же самое, что и пакетное задание, я получаю [main] ОШИБКА...
1981 просмотров
schedule 17.11.2023

Поддержка SAX Parser в Apache Pig
Я работаю над UDF для обработки файлов XML в кластере Hadoop. Я использую PIG для загрузки файлов XML, а затем использую свой UDF для выравнивания структуры данных XML. Моя текущая реализация использует синтаксический анализатор DOM, и мне не...
247 просмотров
schedule 14.11.2023

Для Apache Pig, как мне написать Load UDF в python
Я хочу написать функцию загрузки UDF Python для Apache Pig, чтобы я мог использовать ее в сценарии Pig следующим образом: register 'myudfs.py' using jython as myfuncs; A = load 'data' using myfuncs.myLoader() as line; документация по Pig...
1574 просмотров

Как написать Pig UDF на Scala
Я пытаюсь написать Pig UDF в Scala (используя Eclipse). Я добавил pig.jar в качестве библиотеки в путь сборки java, который, кажется, разрешает 2 импорта ниже: импортировать org.apache.pig.EvalFunc импортировать org.apache.pig.data.Tuple...
1873 просмотров
schedule 20.12.2023

Потоковые данные как объект json в свинье
У меня есть скрипт, который принимает сложные объекты json (по одному на строку) на входе и выводит в формате hadoc. Я хотел бы использовать свинью для потоковой передачи данных через этот скрипт с помощью STREAM. Как я могу заставить свинью...
177 просмотров
schedule 29.12.2023

Обработка сложного XML в Hadoop для извлечения данных
Я хочу обработать отформатированный XML в Hadoop, который довольно сложен и огромен, а также содержит циклы. Я пробовал следующие варианты: Загружать XML-файлы в Hive в виде одного столбца и использовать запросы XPATH. Создайте таблицу Hive...
795 просмотров
schedule 01.01.2024

Расширение столбцов с разделителями до динамических значений в Apache Pig
У меня есть некоторые данные в интересном формате. Это вот так: ID Name Info 1 Joe quality=82,activity=23,age:rank:foo,21:0/1:30 2 Bob activity=32,age:foo,22:31,quality=43 3 Mary...
98 просмотров
schedule 03.11.2023

Свинья UDF java вне индекса
У меня проблема с доступом к свинке с моим UDF. Я сделал группировку "Group BY" и получил вывод, который есть (Andi, 19495) и описывается свиньей как C: {group: chararray, long} . Теперь я хотел бы отформатировать вывод (Andi 19495) в виде строки....
178 просмотров
schedule 13.11.2023

Чтение файла asciif без разделителей Apache Pig Latin
Я пытаюсь прочитать текстовый файл на Apache Pig Latin, в котором каждая строка содержит ascii без разделителей. То есть каждый столбец в этой строке начинается и заканчивается в определенной позиции в строке. Образец определения:...
47 просмотров
schedule 23.12.2023