กลุ่มการจัดกลุ่มแบบลำดับชั้น (การรวมกลุ่มหรือเรียกอีกอย่างว่าแนวทางจากล่างขึ้นบน) หรือการแบ่ง (การแบ่งกลุ่มหรือเรียกอีกอย่างว่าวิธีจากบนลงล่าง) กลุ่มตามการวัดระยะทาง ในการทำคลัสเตอร์แบบ Agglomerative จุดข้อมูลแต่ละจุดจะทำหน้าที่เป็นคลัสเตอร์ตั้งแต่แรก จากนั้นจึงจัดกลุ่มคลัสเตอร์ทีละรายการ

Divisive เป็นสิ่งที่ตรงกันข้ามกับ Agglomerative โดยเริ่มจากจุดทั้งหมดออกเป็นกระจุกเดียวแล้วแบ่งออกเพื่อสร้างกระจุกเพิ่มเติม อัลกอริธึมเหล่านี้สร้างเมทริกซ์ระยะทางของคลัสเตอร์ที่มีอยู่ทั้งหมด และทำการเชื่อมโยงระหว่างคลัสเตอร์โดยขึ้นอยู่กับเกณฑ์ของการเชื่อมโยง การจัดกลุ่มจุดข้อมูลจะแสดงโดยใช้เดนโดรแกรม การเชื่อมโยงมีหลายประเภท: –

o การเชื่อมโยงแบบเดี่ยว: — ในการเชื่อมต่อแบบเดี่ยว ระยะห่างระหว่างสองคลัสเตอร์คือระยะห่างที่สั้นที่สุดระหว่างจุดในทั้งสองคลัสเตอร์นั้น

o การเชื่อมโยงโดยสมบูรณ์: — ในการเชื่อมโยงโดยสมบูรณ์ ระยะห่างระหว่างสองกระจุกคือระยะห่างที่ไกลที่สุดระหว่างจุดในทั้งสองกระจุกนั้น

o การเชื่อมโยงเฉลี่ย: — ในการเชื่อมโยงโดยเฉลี่ย ระยะห่างระหว่างสองคลัสเตอร์คือระยะทางเฉลี่ยของทุกจุดในกลุ่มกับทุกจุดในอีกคลัสเตอร์หนึ่ง

อัลกอริธึมทั้งสองนี้กลับกันทุกประการ ดังนั้นเราจะกล่าวถึงรายละเอียดอัลกอริธึมการจัดกลุ่มแบบลำดับชั้นแบบ Agglomerative

วิธีการทำงานของอัลกอริธึมการจัดกลุ่มลำดับชั้นแบบ Agglomerative

สำหรับชุดของการสังเกต N ที่จะจัดกลุ่ม:

  1. เริ่มกำหนดให้แต่ละการสังเกตเป็นกลุ่มจุดเดียว เพื่อว่าถ้าเรามีการสังเกต N ครั้ง เราก็จะมี N กระจุก ซึ่งแต่ละการสังเกตจะมีเพียงการสังเกตเดียว
  2. ค้นหาคู่คลัสเตอร์ที่ใกล้เคียงที่สุด (คล้ายกันที่สุด) และรวมเป็นคลัสเตอร์เดียว ขณะนี้เรามีคลัสเตอร์ N-1 แล้วซึ่งสามารถทำได้หลายวิธีเพื่อระบุการวัดที่คล้ายกันและไม่เหมือนกัน
  3. ค้นหาสองคลัสเตอร์ที่ใกล้ที่สุดและรวมเป็นคลัสเตอร์เดียว ตอนนี้เรามีคลัสเตอร์ N-2 แล้ว สามารถทำได้โดยใช้เทคนิคการเชื่อมโยงการจัดกลุ่มแบบกลุ่ม
  4. ทำซ้ำขั้นตอนที่ 2 และ 3 จนกว่าการสังเกตทั้งหมดจะรวมกลุ่มเป็นกลุ่มเดียวที่มีขนาด N

อัลกอริธึมการจัดกลุ่มใช้การวัดระยะทางหรือความแตกต่างที่หลากหลายเพื่อพัฒนาคลัสเตอร์ที่แตกต่างกัน ระยะห่างที่ต่ำกว่าหรือใกล้กว่าบ่งชี้ว่าข้อมูลหรือการสังเกตมีความคล้ายคลึงกันและจะถูกจัดกลุ่มเป็นกลุ่มเดียว โปรดจำไว้ว่ายิ่งความคล้ายคลึงกันสูงขึ้นเท่าใด การสังเกตก็มีความคล้ายคลึงกัน

ขั้นตอนที่ 2 สามารถทำได้หลายวิธีเพื่อระบุมาตรการที่คล้ายกันและไม่เหมือนกัน กล่าวคือ

  • ระยะทางแบบยุคลิด
  • ระยะทางแมนฮัตตัน
  • ระยะทางมินคอฟสกี้
  • สัมประสิทธิ์ความคล้ายคลึงกันของแจ็กการ์ด
  • ความคล้ายคลึงโคไซน์
  • ค่าสัมประสิทธิ์ความคล้ายคลึงของโกเวอร์