В Hadoop, как проверить количество задач карты, выполняемых на каждом подчиненном узле по отдельности?

У меня есть кластер Hadoop с головным узлом в качестве главного и 7 других узлов, настроенных как подчиненные, каждый из которых имеет 8 ядер и 8 ГБ памяти. Я играю с изменением параметра «mapred.tasktracker.map.tasks.maximum» и количества подчиненных устройств в файле конфигурации подчиненных устройств. Теперь, если моя программа должна выполнить, скажем, 40 задач, могу ли я увидеть, сколько задач выполнялось на каждом отдельном ведомом узле в каком-либо файле журнала или где-то еще? По сути, я ищу распределение задач Map между разными узлами.


person justin waugh    schedule 29.04.2012    source источник


Ответы (2)


Проще всего это сделать через веб-интерфейс, поставляемый с системой Hadoop.

В веб-браузере введите: jobtrack-machine-hostname:50030 Например: localhost:50030

И вы получите то, что хотите.

person Shumin Guo    schedule 29.04.2012

Вы можете установить Ganglia, чтобы отслеживать статистику с помощью Jobtracker. Я сделал это на своем кластере, и это было очень легко установить. Он также позволяет отслеживать загрузку, подкачку, использование диска, памяти и т. д. на каждом узле.

См. инструкции здесь: http://wiki.apache.org/hadoop/GangliaMetrics.

ПРЕДУПРЕЖДЕНИЕ: если вы устанавливаете Ganglia, вы, вероятно, получите версию 3.1. Убедитесь, что вы используете org.apache.hadoop.metrics.ganglia.GangliaContext31 вместо того, что есть на этой странице.

person Jeff Wu    schedule 29.04.2012