Setelah Anda memahami alat dasar pembelajaran mesin seperti Python, Pandas, dan perpustakaan terkait yang berjalan di Google Colab pembelajaran mesin dasar terjadi dengan cukup cepat. Beberapa model prediktif pertama Anda sangat menarik untuk dikerjakan, tetapi bahkan pada tahap awal ini Anda mungkin berpikir ada cara untuk meningkatkan hasil Anda. Sekarang saatnya untuk mulai menyetel model Anda.

Validasi Silang

Validasi silang adalah teknik untuk mengevaluasi model ML dengan melatih beberapa model pada subkumpulan data dan mengevaluasinya secara bersamaan. Hal ini dapat membantu Anda menghindari overfitting dengan menggunakan kumpulan data lengkap dalam menjalankan pelatihan parsial. Anda dapat menggunakan metode validasi silang k-fold untuk melakukan validasi silang.

Kami akan mendemonstrasikannya menggunakan validasi silang k-fold. Ini akan membagi data masukan menjadi k subset (juga dikenal sebagai lipatan). Anda melatih model ML pada semua kecuali satu subset dan mengevaluasinya. Proses ini diulang sebanyak k kali.

Diagram berikut menunjukkan subset pelatihan untuk masing-masing dari empat model yang dibuat dan dilatih selama validasi silang 4 kali lipat. Model pertama menggunakan 25 persen data pertama untuk evaluasi, dan 75 persen sisanya untuk pelatihan. Model kedua menggunakan bagian kedua sebesar 25 persen untuk evaluasi dan sisanya untuk pelatihan, dan seterusnya.

Perameter Hiper

hiperparameter adalah parameter yang nilainya ditetapkan sebelum proses pembelajaran dimulai. Sebaliknya, nilai parameter lain diperoleh melalui pelatihan. Mari kita lihat penerapan algoritma Cross Validation dengan perpustakaan sklearn yang melakukan tugas berat. Anda akan melihat KFold(n_splits=3, random_state=42). Baik n_splits=3 dan random_state=42 adalah hyper-parameter. Parameter hiper ini adalah pendorong yang digunakan oleh para ilmuwan data untuk mencapai solusi yang lebih baik secara bertahap. Dalam hal ini kami menggunakan n_splits=3yang merupakan ukuran berapa banyak bagian yang akan dipisahkan datanya. Hyper-perameterrandom_state=42 akan menjaga hasil tetap konsisten dalam menjalankan algoritme di masa mendatang. Angka sebenarnya (dalam hal ini 42) tidaklah penting. Bisa saja nomor berapa pun. Namun menggunakan nomor yang sama pada proses algoritma di masa depan akan memastikan hasil yang konsisten. Membiarkannya kosong tidak akan mempengaruhi jalannya algoritma tetapi setiap kali Anda menjalankannya, random_state akan berbeda.

AUC (Area di Bawah Kurva)

Hasil penyetelan model hingga saat ini adalah peningkatan skor AUC. Skor AUC ini merupakan pengujian model yang “fit” dengan data pengujian. Sebenarnya kurva yang dimaksud adalah rasio hasil “True Positive” vs “False Positive”. Menginginkan rasio tertinggi adalah hal yang intuitif untuk memiliki model yang dapat Anda percayai untuk mengembalikan sinyal seakurat mungkin. Untuk bacaan lebih lanjut, berikut adalah penjelasan video berdurasi 14 menit yang luar biasa tentang AUC by Data School .

Menyetel Hyper Parameter

Proses penyetelan model bersifat ilmiah dan intuitif. Intinya adalah melakukan beberapa uji coba dengan hyperparameter yang diubah. Setiap uji coba adalah eksekusi lengkap aplikasi pelatihan Anda dengan nilai hyperparameter yang Anda pilih. Itulah ilmunya. Seni ini berasal dari pengalaman dan pemahaman nilai penyetelan mana yang paling mungkin meningkatkan hasil Anda secara keseluruhan. Ketika kumpulan data Anda menjadi lebih besar dan waktu berjalan bertambah, pemahaman Anda tentang kemungkinan hasil yang dapat menjadi pembeda antara terobosan atau kegagalan suatu proyek.

Simpan Pekerjaan Anda!

Setelah bekerja keras selama berjam-jam, hal terakhir yang Anda inginkan adalah kehilangan parameter yang telah disetel dengan baik jika Anda memindahkan model Anda ke platform lain atau dari lingkungan demo untuk ditayangkan. Salah satu cara untuk memastikan pekerjaan Anda tetap konsisten adalah dengan menggunakan sklearn.externals.joblib ini adalah perpustakaan yang fungsinya untuk menyimpan pekerjaan Anda ke dalam satu bundel untuk diteruskan. Hal ini sangat mudah digunakan. Ketika Anda model sudah terpasang dan siap berangkat, Anda cukup menggunakan kode ini dan menyimpannya ke filename.

Dan begitu Anda memiliki file ke lokasi baru beserta datanya, maka semudah itu untuk membongkar dan menggunakannya.