Bagaimana Model Bahasa Besar Belajar dari Data

“Buku adalah keajaiban portabel yang unik.” — demikian kutipan penulis produktif Stephen King. Sekarang, bayangkan jika Anda bisa menyaring esensi dari setiap buku yang pernah ditulis ke dalam otak digital. Anda dapat mengajukan pertanyaan, dan itu akan menghasilkan balasan, memberikan wawasan, solusi, atau sekadar olok-olok jenaka. Kedengarannya seperti fiksi ilmiah, bukan? Namun justru inilah yang ingin dicapai oleh Model Bahasa Besar (LLM).

Mengungkap Keajaiban Kata-kata

Pada intinya, LLM, seperti GPT-4 atau BERT, adalah sistem pengenalan pola. Mereka mempelajari pola dari kumpulan data teks yang sangat besar, dan kemudian memanfaatkan pola tersebut untuk memprediksi atau menghasilkan teks baru. Namun jangan biarkan diri kita terbatas pada pernyataan-pernyataan besar saja. Mari kita selidiki lebih dalam, dengan membongkar otak-otak digital ini untuk memahami cara mereka belajar.

Memberi Makan Buku: Proses Pelatihan

LLM belajar dari teks dalam proses yang serupa dengan bagaimana seorang anak belajar bahasa, namun dalam skala yang sangat cepat. Anak belajar dengan cara menyerap informasi dari lingkungan sekitar, terutama melalui paparan percakapan dan membaca. LLM, di sisi lain, belajar dari proses pelatihan yang disebut pembelajaran yang diawasi.

Pembelajaran yang diawasi melibatkan kumpulan data, yang merupakan kumpulan besar data teks dalam kasus LLM. Dataset ini dibagi menjadi pasangan input dan output yang diharapkan. LLM memproses masukan, membuat prediksi, dan kemudian menyesuaikan parameter internalnya berdasarkan seberapa cocok prediksi tersebut dengan keluaran yang diharapkan. Siklus ini berulang jutaan, bahkan miliaran kali.

Dalam kasus GPT-4, model dilatih pada beragam teks internet. Namun jangan khawatir, ia belum belajar mengetik meme kucing atau menguasai seni clickbait (walaupun itu bisa menjadi fitur yang lucu, atau bahkan menakutkan, untuk GPT-5). Para pengembang sangat berhati-hati untuk menghindari kesalahan seperti itu, dengan menyusun kumpulan data dengan cermat untuk memastikan representasi bahasa manusia yang luas dan seimbang.

Bagian Penting: Representasi Pembelajaran

Apa yang membuat LLM istimewa adalah cara ia belajar merepresentasikan bahasa secara internal. Ia menggunakan apa yang disebut “embeddings” untuk mewakili kata-kata yang berbeda. Ini adalah vektor berdimensi tinggi (pikirkan kode batang multidimensi), di mana posisi setiap kata dipelajari selama proses pelatihan.

Penyematan ini menangkap “makna” suatu kata dalam posisinya relatif terhadap kata lain. Misalnya, dalam dunia penyematan, kata seperti “raja” dan “ratu” akan lebih dekat satu sama lain dibandingkan “raja” dan “apel” karena hubungan semantiknya.

LLM seperti GPT-4 terdiri dari beberapa lapisan (tepatnya 175 miliar parameter untuk GPT-4), di mana setiap lapisan mempelajari representasi bahasa yang lebih abstrak. Jadi, lapisan bawah mungkin belajar tentang kata-kata individual dan tata bahasa dasar, sedangkan lapisan atas belajar memahami struktur kalimat yang kompleks, metafora, dan bahkan beberapa bentuk penalaran.

Dari Pemahaman ke Generasi: Decoder

Setelah mempelajari representasi ini, langkah selanjutnya adalah menghasilkan teks baru, dan di sinilah peran decoder. Ini seperti penyihir yang mengambil sup bahasa ajaib yang telah dipelajari model dan menghasilkan kalimat yang koheren dan sesuai konteks.

Decoder diberi masukan (seperti pertanyaan atau perintah) dan menggunakan embeddings yang dipelajari untuk menghasilkan sepotong teks, kata demi kata. Ia menggunakan sesuatu yang disebut mekanisme “perhatian” untuk mengetahui bagian masukan mana yang paling relevan untuk menghasilkan kata berikutnya, dan terus berlanjut hingga memiliki kalimat, paragraf, atau bahkan artikel lengkap.

Batasan Pembelajaran

Secerdas apapun LLM, mereka masih belum benar-benar memahami bahasa di dalamnya

cara yang dilakukan manusia. Mereka tidak dapat benar-benar memahami nuansa konteks sosial, dan mereka juga tidak dapat secara andal menghasilkan konten yang berwawasan luas selain informasi yang ada dalam data pelatihan mereka. Bisa dibilang mereka seperti burung beo, meniru pola yang mereka lihat tanpa pemahaman lebih dalam.

Perjalanan ke Depan

Sama seperti seorang anak yang tidak berhenti belajar bahasa setelah menguasai dasar-dasarnya, perjalanan LLM masih jauh dari selesai. Saat kami terus mengembangkan model ini, model tersebut akan menjadi lebih baik dalam memahami dan menghasilkan teks. Dan siapa yang tahu? Mungkin suatu hari nanti, kita akan memiliki otak digital yang tidak hanya meniru bahasa manusia, namun benar-benar memahami dan menghasilkannya dengan cara baru dan kreatif.

Sampai saat itu tiba, kami akan terus mengagumi burung beo digital, karena mereka meniru, belajar, dan meningkatkan, kata demi kata.