Pengantar Analisis Regresi

Analisis regresi adalah seperangkat metode statistik yang digunakan untuk memperkirakan hubungan antara variabel terikat dan satu atau lebih variabel bebas. Hal ini dapat digunakan untuk menilai kekuatan hubungan antar variabel dan untuk memodelkan hubungan masa depan di antara variabel-variabel tersebut.

Analisis regresi mencakup beberapa variasi, seperti linier, linier berganda, dan nonlinier. Model yang paling umum adalah linier sederhana dan linier berganda. Analisis regresi nonlinier biasanya digunakan untuk kumpulan data yang lebih rumit di mana variabel terikat dan bebas menunjukkan hubungan nonlinier. Analisis ini membantu kita memahami bagaimana nilai variabel terikat berubah sesuai dengan variabel bebas ketika variabel bebas lainnya dianggap tetap.

Apa itu Regresi?

Regresi adalah teknik pembelajaran terbimbing yang membantu menemukan korelasi antar variabel dan memungkinkan kita memprediksi variabel keluaran berkelanjutan berdasarkan satu atau lebih variabel prediktor. Hal ini terutama digunakan untuk prediksi, perkiraan, pemodelan deret waktu, dan menentukan hubungan sebab akibat antar variabel.

Terminologi Terkait Analisis Regresi:

Variabel Dependen: Faktor utama dalam analisis Regresi yang ingin kita prediksi atau pahami disebut variabel dependen. Ini juga disebut variabel target.
Variabel Independen: Faktor-faktor yang mempengaruhi variabel dependen atau yang digunakan untuk memprediksi nilai variabel dependen disebut variabel independen, disebut juga sebagai prediktor.
Outlier: Outlier adalah observasi yang berisi nilai sangat rendah atau nilai sangat tinggi dibandingkan dengan nilai observasi lainnya. Pencilan dapat menghambat hasil, jadi sebaiknya dihindari.
Multikolinearitas: Jika variabel independen mempunyai korelasi yang sangat tinggi satu sama lain dibandingkan variabel lainnya, maka kondisi tersebut disebut Multikolinearitas. Ini tidak boleh ada dalam kumpulan data, karena akan menimbulkan masalah saat memberi peringkat pada variabel yang paling berpengaruh.
Underfitting dan Overfitting: Jika algoritme kami bekerja dengan baik dengan set data pelatihan namun tidak berfungsi dengan baik dengan set data pengujian, maka masalah tersebut disebut Overfitting. Dan jika algoritma kita tidak bekerja dengan baik bahkan dengan dataset pelatihan, maka masalah tersebut disebut underfitting.

Asumsi Analisis Regresi:

Analisis regresi linier didasarkan pada enam asumsi mendasar:

Variabel terikat dan bebas menunjukkan hubungan linier antara kemiringan dan titik potong.
Variabel independennya tidak acak.
Nilai sisa (error) adalah nol.
Nilai residu (kesalahan) adalah konstan di seluruh pengamatan.
Nilai sisa (kesalahan) tidak berkorelasi pada seluruh pengamatan.
Nilai sisa (kesalahan) mengikuti distribusi normal.

Jenis Regresi

Ada berbagai jenis regresi yang digunakan dalam ilmu data dan pembelajaran mesin. Masing-masing jenis memiliki kepentingannya sendiri pada skenario yang berbeda, namun pada intinya, semua metode regresi menganalisis pengaruh variabel independen terhadap variabel dependen. Di sini kita membahas beberapa jenis regresi penting yang diberikan di bawah ini:

Regresi Linier
Regresi Logistik
Regresi Polinomial
Mendukung Regresi Vektor
Regresi Pohon Keputusan
Regresi Hutan Acak
Regresi Punggungan
Regresi Laso:

Regresi linier:

Regresi linier adalah metode regresi statistik yang digunakan untuk analisis prediktif.
Ini adalah salah satu algoritma yang sangat sederhana dan mudah yang bekerja pada regresi dan menunjukkan hubungan antara variabel kontinu.
Ini digunakan untuk memecahkan masalah regresi dalam pembelajaran mesin.
Regresi linier menunjukkan hubungan linier antara variabel bebas (sumbu X) dan variabel terikat (sumbu Y), sehingga disebut regresi linier.
Jika hanya ada satu variabel masukan (x), maka regresi linier tersebut disebut regresi linier sederhana. Dan jika terdapat lebih dari satu variabel masukan, maka regresi linier tersebut disebut regresi linier berganda.
Hubungan antar variabel dalam model regresi linier dapat dijelaskan dengan menggunakan gambar di bawah ini. Di sini kami memperkirakan gaji seorang karyawan berdasarkan tahun pengalaman.
Di bawah ini adalah persamaan matematika untuk regresi linier:

Y = a + bX

Di sini,

Y = variabel terikat (variabel target),
X= Variabel bebas (variabel prediktor),
a dan b adalah koefisien linier

Beberapa aplikasi regresi linier yang populer adalah:

Menganalisis tren dan perkiraan penjualan
Perkiraan gaji
Prediksi real estat
Tiba di ETA yang sedang macet.

Regresi logistik:

Regresi logistik adalah algoritma pembelajaran terawasi lainnya yang digunakan untuk memecahkan masalah klasifikasi. Dalam masalah klasifikasi, kita memiliki variabel terikat dalam format biner atau diskrit seperti 0 atau 1.
Algoritme regresi logistik bekerja dengan variabel kategori seperti 0 atau 1, Ya atau Tidak, Benar atau Salah, Spam atau bukan spam, dll.
Ini adalah algoritma analisis prediktif yang bekerja berdasarkan konsep probabilitas.
Regresi logistik merupakan salah satu jenis regresi, namun berbeda dengan algoritma regresi linier dalam hal penggunaannya.
Regresi logistik menggunakan fungsi sigmoid atau fungsi logistik yang merupakan fungsi biaya kompleks. Fungsi sigmoid ini digunakan untuk memodelkan data dalam regresi logistik. Fungsinya dapat direpresentasikan sebagai:

Di Sini,

f(x)= Output antara nilai 0 dan 1.
x= masukan ke fungsi
e= basis logaritma natural.

Ini menggunakan konsep tingkat ambang batas, nilai di atas tingkat ambang batas dibulatkan menjadi 1, dan nilai di bawah tingkat ambang batas dibulatkan menjadi 0.

Ada tiga jenis regresi logistik:

Biner(0/1, lulus/gagal)
Multi(kucing, anjing, singa)
Ordinal (rendah, sedang, tinggi)

Regresi Polinomial:

Regresi Polinomial adalah jenis regresi yang memodelkan kumpulan data non-linier menggunakan model linier.
Hal ini mirip dengan regresi linier berganda, namun cocok dengan kurva non-linier antara nilai x dan nilai kondisional y yang sesuai.
Misalkan ada kumpulan data yang terdiri dari titik-titik data yang hadir secara non-linier, maka dalam kasus seperti itu, regresi linier tidak akan cocok dengan titik-titik data tersebut. Untuk mencakup titik data seperti itu, kita memerlukan regresi Polinomial.
Dalam regresi polinomial, fitur asli diubah menjadi fitur polinomial dengan derajat tertentu dan kemudian dimodelkan menggunakan model linier. Artinya, titik data paling baik dipasang menggunakan garis polinomial.

Persamaan regresi polinomial diberikan di bawah ini:

Y= b0+b1x+ b2x^2+ b3x^3+…..+ bnx^n.

Di sini, Y adalah prediksi/target keluaran, b0, b1,… bn adalah koefisien regresi. x adalah variabel independen/input kita.
Modelnya masih linier karena koefisien-koefisiennya masih linier dengan kuadrat.

Mendukung Regresi Vektor:

Support Vector Machine adalah algoritma pembelajaran terawasi yang dapat digunakan untuk masalah regresi dan klasifikasi. Jadi jika kita menggunakannya untuk masalah regresi maka disebut dengan Support Vector Regression.

Support Vector Regression adalah algoritma regresi yang bekerja untuk variabel kontinu. Berikut adalah beberapa kata kunci yang digunakan dalam Mendukung Regresi Vektor:

Kernel: Ini adalah fungsi yang digunakan untuk memetakan data berdimensi lebih rendah ke data berdimensi lebih tinggi.
Hyperplane: Pada SVM umum, ini adalah garis pemisah antara dua kelas, namun dalam SVR, ini adalah garis yang membantu memprediksi variabel kontinu dan mencakup sebagian besar titik data.
Garis batas: Garis batas adalah dua garis yang terpisah dari hyperplane, yang menciptakan margin untuk titik data.
Vektor pendukung: Vektor pendukung adalah titik data yang paling dekat dengan hyperplane dan kelas berlawanan.

Di SVR, kami selalu berusaha menentukan hyperplane dengan margin maksimum, sehingga jumlah titik data maksimum tercakup dalam margin tersebut. Tujuan utama SVR adalah mempertimbangkan titik data maksimum dalam garis batas dan hyperplane (garis paling sesuai) harus berisi jumlah titik data maksimum. Perhatikan gambar di bawah ini:

Di sini, garis hijau disebut hyperplane, dan dua garis lainnya disebut garis batas.

Regresi Punggungan:

Regresi ridge adalah salah satu versi regresi linier paling kuat yang memperkenalkan sedikit bias sehingga kita bisa mendapatkan prediksi jangka panjang yang lebih baik.
Jumlah bias yang ditambahkan ke model dikenal sebagai Penalti Regresi Punggungan. Kita dapat menghitung suku penalti ini dengan mengalikan lambda dengan bobot kuadrat masing-masing fitur.
Persamaan regresi ridge adalah:

Regresi linier atau polinomial umum akan gagal jika terdapat kolinearitas yang tinggi antar variabel independen, sehingga untuk mengatasi masalah tersebut dapat digunakan regresi Ridge.
Regresi ridge adalah teknik regularisasi yang digunakan untuk mengurangi kompleksitas model. Ini juga disebut sebagai regularisasi L2.
Ini membantu untuk memecahkan masalah jika kita memiliki lebih banyak parameter daripada sampel.

Regresi Laso:

Regresi laso adalah teknik regularisasi lain untuk mengurangi kompleksitas model.
Hal ini mirip dengan Regresi Ridge kecuali istilah penalti hanya berisi bobot absolut, bukan kuadrat bobot.
Karena mengambil nilai absolut, maka dapat mengecilkan kemiringan menjadi 0, sedangkan Regresi Ridge hanya dapat mengecilkannya mendekati 0.
Ini juga disebut sebagai regularisasi L1. Persamaan regresi Lasso adalah:

Regresi Pohon Keputusan:

Decision Tree adalah algoritma pembelajaran terbimbing yang dapat digunakan untuk memecahkan masalah klasifikasi dan regresi.
Ini dapat memecahkan masalah untuk data kategorikal dan numerik
Regresi Pohon Keputusan membangun struktur seperti pohon di mana setiap simpul internal mewakili “pengujian” untuk suatu atribut, setiap cabang mewakili hasil pengujian, dan setiap simpul daun mewakili keputusan atau hasil akhir.
Pohon keputusan dibangun mulai dari node akar/simpul induk (dataset), yang dibagi menjadi node anak kiri dan kanan (subset dari dataset). Node anak ini selanjutnya dibagi lagi menjadi node turunannya, dan dirinya sendiri menjadi node induk dari node tersebut. Perhatikan gambar di bawah ini:

Regresi Hutan Acak:

Hutan acak adalah salah satu algoritme pembelajaran terawasi paling kuat yang mampu melakukan tugas regresi dan klasifikasi.
Regresi Random Forest adalah metode pembelajaran ansambel yang menggabungkan beberapa pohon keputusan dan memprediksi keluaran akhir berdasarkan rata-rata dari setiap keluaran pohon. Gabungan pohon keputusan disebut sebagai model dasar, dan dapat direpresentasikan secara lebih formal sebagai:

   g(x)= f0(x)+ f1(x)+ f2(x)+....

Hutan acak menggunakan teknik pembelajaran ansambel Bagging atau Bootstrap di mana pohon keputusan agregat berjalan secara paralel dan tidak berinteraksi satu sama lain.
Dengan bantuan regresi Random Forest, kita dapat mencegah Overfitting pada model dengan membuat subset acak dari kumpulan data.