Apa itu Bias dan Varians dalam Machine Learning?

Mari selami lebih dalam untuk memahami Bias dan Varians serta Underfitting dan Overfitting

Pembelajaran Mesin adalah bagian dari Kecerdasan Buatan dan berkembang pesat di berbagai bidang. Machine Learning belajar dari data yang dimasukkan ke dalam modelnya, yang membantunya membuat prediksi yang lebih baik dari waktu ke waktu. Model ML memerlukan data yang beragam dan berjumlah besar untuk membuat prediksi yang bermakna.

Karena ukurannya yang sangat besar dan keterbatasan di dunia nyata, akan selalu ada kesalahan yang menyebabkan penyimpangan antara hasil prediksi dan hasil sebenarnya. Tujuan utama Data Scientist adalah meminimalkan kesalahan untuk membuat prediksi yang lebih akurat.

Kesalahan Pembelajaran Mesin:

Ada dua jenis Error di ML :

Kesalahan #1 yang Dapat Direduksi:

Bias dan Varians yang ada dalam kumpulan data disebut sebagai kesalahan yang dapat direduksi karena dapat disesuaikan dan disesuaikan hingga batas tertentu untuk meningkatkan akurasi model.

# 2 Kesalahan yang Tidak Dapat Disederhanakan:

Ada beberapa kesalahan yang akan selalu ada dalam kumpulan data, apa pun yang Anda lakukan. Misalnya, mungkin ada variabel yang tidak diketahui yang nilainya tidak dapat diubah atau dikurangi.

Kesalahan yang tidak dapat direduksi tidak dapat diubah dan Ilmuwan Data perlu mengatasi keterbatasan ini.

Bias:

Bias mengacu pada perbedaan antara nilai rata-rata yang diprediksi dan nilai yang diharapkan. Bias tinggi disebut sebagai fenomena ketika model terlalu disederhanakan, model ML tidak mampu mengidentifikasi hubungan sebenarnya atau pola dominan dalam kumpulan data.

Setiap model memiliki bias bawaan, karena membantu model belajar dengan lebih cepat dan mudah. Bias yang tinggi menyebabkan underfitting pada model.

Algoritme linier pada umumnya memiliki bias yang tinggi sehingga memungkinkannya belajar dengan cepat. Sedangkan algoritma nonlinier memiliki bias yang lebih rendah karena lebih kompleks dibandingkan model linier. Sederhananya, semakin sederhana algoritmanya, semakin banyak bias dalam modelnya.

Berikut adalah ciri-ciri model data dengan bias tinggi

#1 Tidak dapat menangkap tren

#2 Tingkat Kesalahan Tinggi

#3 Kurang pas

#4 Model yang terlalu disederhanakan/digeneralisasikan

Varians :

Variance mengukur perubahan nilai/output jika dataset pelatihan baru yang berbeda digunakan. Dalam situasi ideal, model tidak boleh berbeda untuk kumpulan data pelatihan yang berbeda. Perbedaan ini muncul ketika Data Scientist menggunakan model kompleks dengan banyak fitur.

Varians yang tinggi menyebabkan overfitting, yang menangkap titik data lebih banyak dari yang dibutuhkan bersama dengan noise. Sedangkan model dengan varians rendah memiliki perbedaan yang minimal antara model sampel dan model prediksi.

Model dengan varian tinggi berperforma baik pada set data pelatihan, tetapi gagal berperforma sesuai ekspektasi saat diberikan data yang tidak terlihat.

Model Regresi Linier dan Regresi Logistik memiliki varian yang rendah, sedangkan pohon keputusan, mesin vektor pendukung, dan k tetangga terdekat memiliki varian yang tinggi.

Karakteristik Model Varians Tinggi

#1 Kompleksitas Tinggi

#2 Memetakan semua titik data berdekatan satu sama lain

#3 Terlalu pas

#4 Kebisingan dalam kumpulan data

Kelebihan dan Kesesuaian:

Sekarang kita sudah memahami Bias dan Variance, mari kita pahami apa itu Overfitting dan Underfitting

Overfitting dan underfitting adalah dua masalah yang mengganggu setiap model Machine Learning. Model Pembelajaran Mesin yang optimal harus mampu beradaptasi dengan semua masukan yang tidak diketahui dan memberikan keluaran yang andal setiap saat.

Kelebihan ukuran

Overfitting mengacu pada situasi ketika Data Scientist melatih model ML dengan banyak data. Secara metaforis bayangkan seseorang yang langsing mengenakan pakaian longgar yang terlalu besar!

Saat model dilatih dengan data yang besar, model tersebut mulai mencakup lebih banyak titik data daripada yang dibutuhkan, dan dalam proses ini, model tersebut juga mulai mengintegrasikan noise dan nilai yang tidak akurat.

Model overfitted memiliki varian yang tinggi dan bias yang rendah. Algoritme pembelajaran yang diawasi selalu mengalami overfitting.

Penyebab Overfitting:

Di bawah ini adalah beberapa alasan yang disebutkan yang menyebabkan overfitting

Varians Tinggi #1 dalam Model ML

#2 Kompleksitas Tinggi model

#3 Menggunakan data yang tidak bersih dan tidak terstruktur

#4 Kumpulan data pelatihan tidak memadai

Cara memperbaiki Overfitting

#1 Latih model dengan data yang memadai

#2 Menerapkan Teknik Regularisasi

#3 Terapkan validasi silang K Fold

#4 Menghapus fitur

#5 Teknik Perakitan

Kekurangan:

Underfitting merupakan fenomena yang terjadi ketika model ML tidak mampu mengidentifikasi tren data

Secara metaforis, bayangkan seseorang yang sehat mencoba mengenakan gaun berukuran kecil.

Model tidak dapat belajar dari data pelatihan untuk membuat prediksi yang andal dan akurat. Hal ini terjadi karena bias yang tinggi dan varians yang rendah

Apa yang menyebabkan Underfitting:

# Bias Tinggi dan varians Rendah dalam kumpulan data

#2 Model sederhana yang digunakan untuk prediksi

#3 Data tidak bersih digunakan untuk membuat prediksi

#4 Ukuran kumpulan data pelatihan tidak memadai

Cara memperbaiki Underfitting

#1 Jadikan model lebih kompleks

#2 Tingkatkan fitur dan durasi kumpulan data pelatihan

#3 Hilangkan noise dari kumpulan data

Cocok:

Situasi yang ideal adalah ketika nilai prediksi cocok dengan nilai aktual dalam kumpulan data dan tidak mencatat kesalahan. Namun, dalam kehidupan nyata, hal tersebut mustahil dicapai. Solusi optimalnya adalah mencari jalan tengah yang membantu memperoleh keluaran yang diinginkan.

Dengan melatih model secara terus-menerus, kesalahan dalam kumpulan data pelatihan berkurang seiring waktu. Hal yang sama terjadi dengan kumpulan data pengujian. Jika Anda terus menguji set data pelatihan, pada akhirnya data tersebut akan mulai menangkap noise juga dan menyebabkan overfitting.

Kita perlu waspada dan mengamati titik penting di mana kesalahan mulai meningkat. Saat ini kami perlu menghentikan pelatihan. Model terlatih ini diasumsikan cocok dan dapat menghasilkan prediksi yang valid.