Berikut fungsi f(x) = sin(x):

Dalam pembelajaran mendalam standar, kita biasanya memiliki beberapa hipotesis mendasar yang ingin kita perkirakan menggunakan jaringan saraf. Itulah yang dilakukan rangkaian garis merah di sini. Dalam istilah jaringan saraf, dibutuhkan satu masukan, meneruskan masukan melalui dua lapisan Dense perantara dengan masing-masing 8 neuron dan fungsi aktivasi ReLU, dan memetakannya ke satu keluaran.

Ini adalah contoh yang cukup mendasar tentang bagaimana jaringan saraf digunakan. Pada kenyataannya, kita tidak akan pernah menggunakan fungsi rumit seperti itu hanya untuk memperkirakan sin(x).

Jaringan saraf digunakan untuk memperkirakan fungsi yang tidak cukup kita pahami dan programnya tidak dapat kita tulis dengan mudah. Pertimbangkan untuk menulis sebuah program yang mengambil, sebagai masukan, gambar angka dari 0 hingga 9 dan mengeluarkan angka tersebut. Misalnya, tulis sebuah program yang mengambil gambar 7 ini:

dan menghasilkan 7.

Ini adalah masalah klasik MNIST, masalah yang sebagian besar telah terpecahkan sejak munculnya jaringan saraf dalam.

Intinya fungsi seperti itu tidak mudah untuk diprogram secara eksplisit. Fungsi sin(x), misalnya, dapat dihitung dengan panjang sembarang dengan ekspansi Taylor berikut:

Tetapi bagaimana Anda menulis sebuah program untuk mengambil gambar dan menampilkan nomor yang diwakili oleh gambar tersebut? Ini adalah jenis masalah yang ingin dipecahkan oleh jaringan saraf dalam.

Minimal Global

Masalah yang muncul dengan jaringan saraf adalah masalah 'minimum global'. Ini adalah masalah yang muncul seiring dengan semakin kompleksnya jaringan saraf, karena jumlah variabel yang menggambarkan fungsi meningkatkan ruang hipotesis yang mungkin, hipotesis ruang, juga bertambah besar ukurannya. Bahkan dengan soal sederhana seperti MNIST, Anda harus memiliki Multilayer-Perceptron (MLP) yang cukup besar untuk mengklasifikasikan angka tulisan tangan dengan baik, sehingga menghasilkan ruang hipotesis yang lebih besar.

Biasanya dengan ruang hipotesis yang besar, penurunan gradien tidak akan mencapai nilai minimum global, artinya jaringan saraf yang Anda hasilkan akan memiliki parameter yang kurang optimal. Ini adalah masalah karena alasan sederhana bahwa jika Anda melatih jaringan saraf, jaringan tersebut mungkin tidak akan menjadi jaringan terbaik yang sesuai dengan proses pembuatan data yang mendasarinya. Sulit untuk menemukan nilai minimum global dalam ruang hipotesis yang besar, dan saat ini tidak ada algoritma yang baik yang dapat melakukannya.

Banyak orang berasumsi bahwa jika kita menemukan nilai minimum global dalam ruang hipotesis, kita telah menemukan pemetaan optimal yang menggambarkan proses menghasilkan data. Misalnya, jika kita memiliki nilai minimum global dalam MLP yang juga tidak memiliki kesalahan generalisasi pada tugas mengklasifikasikan angka-angka tulisan tangan, maka ini akan mewakili pemetaan yang dimiliki manusia untuk angka-angka tulisan tangan (yang dalam hal ini, adalah distribusi penghasil data ). Ada beberapa masalah dengan sudut pandang ini.

Mari kita ambil contoh pendekatan sin(x) di atas. MLP memperkirakannya dengan cukup baik, tetapi fungsinya sin(x) adalah fungsi yang berulang tanpa batas! Fungsi yang mendasari f: x -› sin(x) bahkan tidak berada dalam ruang hipotesis MLP, sehingga nilai minimum global sama sekali tidak mewakili fungsi penghasil data yang mendasarinya. Jelasnya, kita tidak akan pernah melatih MLP jika kita benar-benar ingin mendapatkan fungsi yang sesuai dengan sin(x). Namun ini hanya karena kita memahami pemetaan dari x ke sin(x).

Masalah

Saat mencoba menyesuaikan fungsi yang kurang dipahami, seperti mengklasifikasikan angka tulisan tangan, masalah dalam memilih ruang hipotesis yang sesuai menjadi masalah yang jauh lebih besar. Menerapkan arsitektur berbasis MLP atau Konvolusi di MNIST, terus terang, bersifat sewenang-wenang. Jangan salah paham; itu berhasil, dan berfungsi dengan baik. Namun, sangat kecil kemungkinannya arsitektur ini mampu mewakili cara berpikir manusia terhadap jenis masalah yang sama. Dan kenyataannya, fungsinya bisa jadi jauh lebih sederhana dari yang kita harapkan.

Hal ini berlaku di luar MNIST, yang memang merupakan masalah sederhana. Ambil contoh penerapan modern: pembuatan teks, yang secara praktis didominasi oleh model Transformer. Kemajuan terbaru dalam Chat-GPT mencerminkan peningkatan kemampuan yang dimiliki model-model ini, dan apa yang dapat mereka lakukan sungguh menakjubkan. Namun, kecil kemungkinannya ketika manusia ditugaskan untuk memprediksi kata berikutnya berdasarkan teks tertentu, manusia akan melakukan perhitungan senilai 175 miliar parameter untuk menghasilkan probabilitas di seluruh bahasa Inggris (manusia memiliki sekitar 86 miliar neuron).

Mungkin, jika kita ingin membuat sistem yang benar-benar cerdas, kita harus mulai berpikir secara berbeda mengenai cara kita menemukan hipotesis.