Kelompok Clustering Hierarki (Agglomerative atau disebut juga Pendekatan Bottom-Up) atau membagi (Divisive atau disebut juga Pendekatan Top-Down) cluster berdasarkan metrik jarak. Dalam pengelompokan Agglomeratif, setiap titik data pada awalnya bertindak sebagai sebuah klaster, dan kemudian mengelompokkan klaster tersebut satu per satu.

Divisive adalah kebalikan dari Agglomerative, ia memulai dengan semua titik menjadi satu cluster dan membaginya untuk membuat lebih banyak cluster. Algoritma ini membuat matriks jarak dari seluruh cluster yang ada dan melakukan linkage antar cluster tergantung pada kriteria linkage tersebut. Pengelompokan titik data direpresentasikan dengan menggunakan dendrogram. Ada berbagai jenis keterkaitan: –

o Single Linkage: — Dalam single linkage, jarak antara dua cluster adalah jarak terpendek antar titik dalam dua cluster tersebut.

o Keterkaitan Lengkap: — Pada keterkaitan lengkap, jarak antara dua klaster adalah jarak terjauh antar titik dalam kedua klaster tersebut.

o Average Linkage: — Dalam average linkage, jarak antara dua cluster adalah jarak rata-rata setiap titik dalam cluster dengan setiap titik di cluster lainnya.

Kedua algoritma ini saling berkebalikan satu sama lain. Jadi kita akan membahas algoritma pengelompokan Hierarki Agglomeratif secara rinci.

Cara Kerja Algoritma Pengelompokan Hierarki Agglomeratif

Untuk sekumpulan N observasi yang akan dikelompokkan:

  1. Mulailah menugaskan setiap observasi sebagai satu cluster titik, sehingga jika kita mempunyai N observasi, kita mempunyai N cluster, masing-masing hanya berisi satu observasi.
  2. Temukan pasangan cluster terdekat (paling mirip) dan jadikan mereka menjadi satu cluster, sekarang kita memiliki cluster N-1.Hal ini dapat dilakukan dengan berbagai cara untuk mengidentifikasi ukuran yang serupa dan berbeda.
  3. Temukan dua cluster terdekat dan jadikan mereka menjadi satu cluster. Kami sekarang memiliki cluster N-2. Hal ini dapat dilakukan dengan menggunakan teknik tautan pengelompokan aglomeratif
  4. Ulangi langkah 2 dan 3 hingga semua observasi dikelompokkan menjadi satu cluster berukuran N.

Algoritme pengelompokan menggunakan berbagai ukuran jarak atau ketidaksamaan untuk mengembangkan kelompok yang berbeda. Jarak yang lebih rendah/dekat menunjukkan bahwa data atau observasi serupa dan akan dikelompokkan dalam satu cluster. Ingatlah bahwa semakin tinggi kemiripan menggambarkan pengamatan yang serupa.

Langkah 2 dapat dilakukan dengan berbagai cara untuk mengidentifikasi tindakan serupa dan berbeda. Yaitu,

  • Jarak Euclidean
  • Jarak Manhattan
  • Jarak Minkowski
  • Koefisien Kesamaan Jaccard
  • Kesamaan Kosinus
  • Koefisien Kemiripan Gower