Memprediksi default kartu kredit menggunakan Machine Learning## Ikhtisar

Ringkasan

*Kapan terakhir kali Anda meminjamkan uang kepada teman, tetapi mereka tidak pernah mengembalikannya, jadi Anda memutuskan untuk membiarkan mereka memilikinya?*

Bank, sebaliknya, tidak bisa begitu saja meminjamkan uang dan melupakannya. Bagaimana bank mengetahui apakah uang tunai yang mereka pinjamkan kepada nasabah akan dikembalikan? Mereka sebenarnya tidak mengetahuinya, namun mereka dapat mencoba memprediksi hasil berdasarkan ciri-ciri perilaku klien di masa lalu. Namun, fitur apa yang harus mereka fokuskan?

Proyek ini menganalisis masalah di atas dengan berfokus pada model dan fitur apa yang harus diprioritaskan untuk memprediksi apakah klien kartu kredit akan gagal bayar (gagal membayar) atau tidak. Pendekatan ini menggunakan *rekayasa fitur* yang melibatkan pemrosesan dan transformasi data mentah menjadi 12 fitur yang relevan. Fitur-fitur ini kemudian digunakan dalam model yang berbeda untuk menentukan metode yang paling dapat diandalkan untuk digunakan oleh para bankir.

Proyek ini menyimpulkan bahwa metode matematika `SHAP` adalah model yang efektif untuk menentukan fitur yang relevan dalam kumpulan data yang dipilih. Meskipun model ini mengungguli metode lain, model ini tidak sempurna. Oleh karena itu, rekayasa lebih lanjut dapat membantu menghindari generalisasi fitur. Pada akhirnya, temuan ini merupakan landasan yang baik bagi para bankir untuk membangun model yang dapat memprediksi apakah nasabah akan gagal bayar, dan memitigasi potensi risiko keuangan.

Latar belakang proyek

Kumpulan data yang dipilih untuk proyek ini disebut “Kumpulan Data Klien Kartu Kredit Default” (DCC), yang diimpor dari Kaggle.

Ringkasan kumpulan data

“Dataset ini berisi informasi tentang pembayaran default, faktor demografi, data kredit, riwayat pembayaran, dan laporan tagihan klien kartu kredit di Taiwan dari April 2005 hingga September 2005.”

Pemikiran awal

Fitur yang disediakan adalah demografi dan pola pembayaran pengguna kartu kredit, sehingga relevan dengan tujuan proyek ini. Namun, seberapa andal prediksi tersebut bergantung pada model dan fitur yang digunakan.

Pendekatan terhadap proyek

Menangani data yang hilang

Bayangkan betapa frustrasinya para bankir jika jam makan siang mereka tidak ada dari jadwal kerja mereka. Demikian pula, pada umumnya kami juga tidak ingin ada data yang hilang dalam kumpulan data kami. Untungnya, kumpulan data DCC tidak mengandung nilai apa pun yang hilang.

Memproses data terlebih dahulu

Sekarang bayangkan, betapa frustrasinya para bankir jika petugas pengantaran membagikan makan siang mereka secara acak. Beberapa mungkin vegetarian, sementara yang lain mungkin memiliki pantangan makanan lainnya. Hal serupa juga terjadi pada kumpulan data kami, yang terdiri dari berbagai tipe data. Untuk melakukan rekayasa fitur, kami ingin mengelompokkan fitur ke dalam tipe terkait, seperti `numerik`, `biner`, dan `kategoris`.

Model dasar

Untuk menentukan seberapa andal prediksi tersebut, kami menghitung skor prediksi berdasarkan rata-rata fitur umum. Harapan kami adalah menggunakan model dengan skor yang lebih tinggi dari 0,777.

Implementasi

Untuk menentukan model dengan performa terbaik, kami menjalankan kumpulan data melalui model yang berbeda untuk menghitung dan membandingkan pentingnya setiap fitur. Model-model ini meliputi:

LogisticRegression: sering digunakan pada nilai biner. Kami menggunakannya di sini karena jawaban apakah klien akan default atau tidak adalah “ya” atau “tidak”. Kami juga menggunakan model ini untuk mencari probabilitas hasil, lalu mengulangi prosesnya beberapa kali untuk mendapatkan mean dan deviasi standar probabilitas tersebut untuk semua klien.

Gambar 1 menunjukkan bahwa prediksi akurasi model ini adalah 0,777. Jadi mungkin menjalankan kumpulan data melalui model yang lebih kompleks dapat meningkatkan skor.

2. Model lain: Beberapa model kompleks lainnya yang dapat digunakan adalah `RandomForestClassifier`, `Gradient Boost`, dan `LightGBM`. `Gambar 1.` adalah ringkasan seluruh skor untuk setiap model.

skor pelatihan menunjukkan seberapa cocok model dengan set data yang dilatih oleh model tersebut. Sementara itu, skor validasi mengevaluasi seberapa andal prediksi tersebut.

Di antara semuanya, LightGBM memiliki skor tertinggi, namun mungkin sedikit *overfitting*. Hal ini ditentukan berdasarkan seberapa dekat atau jauh jarak kereta dan skor validasi satu sama lain.

*Misalnya, jika bankir mengharapkan makan siang pada siang hari dan makanan diantar pada waktu yang tepat, mereka tidak dapat berasumsi bahwa makanan tersebut akan selalu tiba pada saat yang tepat untuk pesanan berikutnya. Kami menyebut situasi yang terlalu optimis ini sebagai “underfitting”. Sementara itu, jika makanan diantar lebih awal atau lebih lambat dari perkiraan, kami menganggap ini sebagai “overfitting”*

Menafsirkan data

Setelah memilih model LightGBM, kami menentukan fitur yang paling relevan dengan prediksi. Untuk melakukan hal ini, kami menggunakan plot paksa yang disebut SHAP untuk membantu memvisualisasikan pentingnya fitur. `Gambar 2.` menunjukkan bahwa fitur merah mendorong prediksi ke 1 (default = ya), sedangkan fitur biru menjauhkannya dari 1.

Ringkasnya, jumlah laporan tagihan (pada bulan Agustus 2005) dan jumlah laporan sebelumnya cenderung mengarah pada prediksi yang tinggi untuk “ya”. Sementara itu, saldo limit dan beberapa jumlah tagihan akan menyebabkan prediksi yang lebih rendah.

Keterbatasan dan kekurangan

Ingat, model yang dipilih tidaklah sempurna. Fitur 3. merupakan matriks yang menunjukkan jumlah prediksi benar (6702 dan 428) terhadap prediksi salah (350 dan 1520). Tingginya jumlah prediksi yang salah menunjukkan bahwa model kami masih dapat ditingkatkan.

Meskipun model saat ini dapat menjadi landasan yang baik, perbaikan dapat dilakukan jika diberikan waktu dan sumber daya, seperti mesin yang lebih baik untuk menjalankan kode. Metode rekayasa fitur yang kompleks dapat membantu kita mengeksplorasi berbagai kombinasi fitur. Misalnya, kita mungkin mempertimbangkan untuk melakukan `perceraian_perempuan`, daripada `seks` dan `pernikahan`. Pendekatan ini memungkinkan kami mendistribusikan kepentingan fitur berdasarkan karakteristiknya, dibandingkan menggabungkan semuanya menjadi satu dan mengasumsikan bobotnya sama. Dengan demikian, membantu mengurangi prediksi yang salah.

Kesimpulan terakhir

Proyek ini menyimpulkan bahwa metode `SHAP` dan LightBGM adalah model yang efektif untuk menentukan fitur yang relevan untuk kumpulan data yang dipilih. Hal ini menunjukkan bahwa jumlah tagihan dan laporan sebelumnya kemungkinan besar akan membantu menentukan apakah klien akan gagal bayar.

Karena dibangun berdasarkan teknik rekayasa fitur yang relatif sederhana, pemrosesan lebih lanjut dapat membantu mengklasifikasikan klien ke dalam subtipe seperti `perempuan_menikah` atau `perempuan_universitas`. Pada akhirnya, SHAP adalah model yang sangat mudah diinterpretasikan, karena membuat perbandingan pentingnya setiap fitur menjadi lebih mudah.