Saya memiliki cluster Hadoop dengan node kepala sebagai master dan 7 node lainnya dikonfigurasi sebagai budak, masing-masing memiliki 8 core dan memori 8 GB. Saya bermain-main dengan memvariasikan parameter "mapred.tasktracker.map.tasks.maximum" dan jumlah budak di file konfigurasi budak. Sekarang, jika program saya harus menjalankan, katakanlah 40 tugas, dapatkah saya melihat berapa banyak tugas yang dijalankan pada setiap node budak di beberapa file log atau di suatu tempat? Pada dasarnya, saya mencari distribusi tugas Peta di antara node yang berbeda.
Di hadoop, bagaimana cara memverifikasi jumlah tugas peta yang berjalan pada setiap node budak satu per satu?
Jawaban (2)
Cara termudah untuk melakukan ini adalah dari antarmuka web yang dikirimkan bersama sistem Hadoop.
Di browser web Anda, ketik: jobtrack-machine-hostname:50030 Misalnya: localhost:50030
Dan Anda akan mendapatkan apa yang Anda inginkan.
person
Shumin Guo
schedule
29.04.2012
Anda dapat menginstal Ganglia untuk memantau statistik dari jobtracker. Saya melakukan ini di cluster saya dan sangat mudah untuk menginstalnya. Ini juga memungkinkan Anda untuk memantau beban, swap, disk, penggunaan memori, dll. pada setiap node.
Lihat petunjuknya di sini: http://wiki.apache.org/hadoop/GangliaMetrics
GOTCHA ALERT: Jika Anda menginstal Ganglia, Anda mungkin akan mendapatkan versi 3.1 Pastikan Anda menggunakan org.apache.hadoop.metrics.ganglia.GangliaContext31
dan bukan yang ada di halaman itu.
person
Jeff Wu
schedule
29.04.2012