Algoritma pembelajaran mesin berbasis pohon dianggap sebagai algoritma pembelajaran terawasi yang paling banyak digunakan dan sukses.

Model pohon keputusan sederhana mudah dipahami dan memberikan poin keputusan yang sangat jelas untuk digunakan dalam keputusan bisnis. Meskipun pohon keputusan sederhana kurang akurat, terdapat modifikasi atau teknik canggih berdasarkan pohon keputusan yang dapat meningkatkan akurasi secara signifikan.

Jika interpretasi adalah tujuan Anda, itu adalah algoritma yang cukup baik untuk orang-orang yang tidak terlalu menyukai angka dan matematika rumit.

Catatan: Algoritme pohon keputusan mencoba menyelesaikan masalah dengan merepresentasikan data sebagai pohon. Setiap simpul keputusan berhubungan dengan satu variabel dan setiap simpul daun berhubungan dengan tag target.

Terminologi Pohon Keputusan:

Node:Setiap pertanyaan adalah sebuah node. Kita dapat memisahkan node menjadi node akar (dasar), node dalam (node ​​berikut), dan node daun (titik akhir).

  • Node akar: Ini adalah node pertama yang berisi seluruh sampel.
  • Node Internal/Node Keputusan: Ini adalah node yang berisi node lain di bawahnya.
  • Node Daun/Titik Akhir:Ini adalah node yang tidak memiliki simpul di bawahnya.

Pemisahan: Ini adalah proses membagi sebuah node menjadi sub-cabang.

Pemangkasan: Ini adalah penghilangan simpul di bawah simpul dari pohon.

Algoritme pohon keputusan membangun pohon keputusan dengan cara yang top-down dan serakah. Langkah-langkah algoritmanya secara singkat adalah sebagai berikut:

  • Pilih atribut A yang terbaik
  • Tetapkan A sebagai atribut keputusan NODE.
  • Buatlah turunan baru dari NODE untuk setiap nilai A.
  • Tetapkan daun simpul turunan yang sesuai ke contoh pelatihan.
  • Jika semua contoh diklasifikasikan dengan sempurna, BERHENTI; jika tidak, ulangi node daun baru.

Pertanyaan penting berikutnya adalah bagaimana memilih atribut terbaik. Atribut optimal untuk pohon keputusan adalah atribut dengan perolehan informasi maksimum, yaitu statistik yang menyatakan seberapa baik suatu atribut membagi data menjadi beberapa kelompok berdasarkan klasifikasi.

Dengan kata lain, secara rekursif, model pohon menghasilkan klasifikasi, memprediksi apakah label = 0 atau label = 1. Jadi, diperlukan suatu metode untuk menentukan pengotor suatu daun untuk keakuratannya atau metode untuk mengukur kemurnian kelas dalam suatu daun. Keakuratan prediksi ditentukan oleh tingkat kemungkinan kesalahan klasifikasi catatan dalam bagian tersebut, yang berkisar antara 0 (murni) hingga 0,5. (acak).

Omong-omong, keakuratan tentu saja bukan ukuran ketidakmurnian yang layak. Jika mempertimbangkan semua hal, ukuran pengotor yang paling berguna adalah pengotor Gini dan Entropi.

Catatan: Pengukuran pengotor ini juga dapat diterapkan pada situasi klasifikasi kelas jamak.

Kenajisan Gini

Pengotor Gini adalah metrik kesalahan klasifikasi yang dapat diterapkan pada pengklasifikasi kelas jamak. Tujuan dari pohon keputusan adalah untuk memisahkan kelas induk sepenuhnya sehingga kita dapat memanfaatkan Gini Impurity untuk memutuskan nilai pemisahan data. Jika Anda menginginkan simpul pohon dengan hanya satu kelas, minimalkan pengotor Gini (juga dikenal sebagai koefisien Gini dalam klasifikasi biner linier) pada simpul daun. Berkurangnya pengotor pada simpul daun menunjukkan bahwa kami memisahkan kelas secara efisien.

Entropi

Faktanya, seringkali tidak berpengaruh besar terhadap pohon mana yang Anda pilih dan keduanya menghasilkan pohon yang sebanding. Pengotor Gini agak lebih cepat untuk diproses, jadi ini merupakan default yang layak. Meskipun demikian, ketika mereka bervariasi, pengotor Gini sebagian besar akan memisahkan kelas yang paling banyak dilihat di bagian pohonnya sendiri, sementara entropi secara umum akan menghasilkan pohon yang lebih seimbang.

Apa perbedaan pohon regresi?

Untukmasalah regresi, kami menggunakan varians untuk memilih pemisahan dan menghitung varians pada setiap sisi titik pemisahan. Pohon keputusan mencoba meminimalkan varian daun sebanyak mungkin.