Я пытался выполнить очень простую задачу с Pig на Amazon EMR. Когда я запускаю команды в интерактивной оболочке, все работает нормально. Но когда я запускаю то же самое, что и пакетное задание, я получаю
[main] ОШИБКА org.apache.pig.tools.grunt.Grunt — ОШИБКА 2017: Внутренняя ошибка при создании конфигурации задания.
и запуск скрипта не работает. Вот мой 7-строчный скрипт. Это просто вычисление средних значений по кортежам биграмм Google. mc — это количество совпадений, а vc — это количество томов.
bigrams = LOAD 's3n://<<bucket-name>>/gbbigrams/*' AS (bigram:chararray, year:int, mc:int, vc:int);
grouped_bigrams = group bigrams by bigram;
answer1 = foreach grouped_bigrams generate group, ((DOUBLE) SUM(bigrams.mc))/COUNT(bigrams) AS avg_mc;
sort_answer1 = ORDER answer1 BY avg_mc desc;
answer2 = LIMIT sort_answer1 5;
STORE answer1 INTO 's3n://<bucket-name>/output/bigram/20130409/answer1';
STORE answer2 INTO 's3n://<bucket-name>/output/bigram/20130409/answer2';
Я предполагал, что ошибка как-то связана с STORE и путем s3. Поэтому я пробовал различные комбинации, такие как использование $OUTPUT, обратной косой черты и т. д., но продолжаю получать ту же ошибку. Любая помощь будет высоко ценится.