LLM bisa menulis kode, tapi bagaimana jika mereka bisa menjalankan program?

Meskipun Model Bahasa Besar (LLM) digunakan untuk berbagai aplikasi, model tersebut biasanya kesulitan menyelesaikan tugas berbasis penalaran. Masalah ini berkurang secara signifikan dengan munculnya teknik-teknik dorongan seperti Rantai Pemikiran dan dorongan Paling Sedikit ke Paling Banyak. Pada tingkat tinggi, teknik ini mendorong perilaku penalaran di LLM dengan memberikan contoh alasan pemecahan masalah dalam model prompt. Kemudian, model tersebut dapat belajar mengeluarkan alasan-alasan tersebut dan menghasilkan solusi langkah demi langkah terhadap masalah mendasar. Khususnya, ini adalah pendekatan yang hanya bersifat dorongan yang tidak memerlukan penyesuaian, mengungkapkan bahwa LLM mampu melakukan penalaran jika diberikan perintah dengan konteks yang memadai.

Terlepas dari efektivitas teknik seperti dorongan rantai pemikiran, LLM diharapkan menghasilkan rantai pemikiran pemecahan masalah dan jawaban akhir. Menariknya, pendekatan seperti itu mengarah pada kasus kegagalan yang aneh di mana LLM dapat menghasilkan alasan yang akurat untuk memecahkan suatu masalah namun masih menghasilkan jawaban yang salah. Biasanya, kesalahan tersebut disebabkan oleh kesalahan sederhana (misalnya, aritmatika yang buruk). Untuk mengatasi masalah ini, penelitian terbaru telah mengeksplorasi pendekatan program yang mendorong LLM untuk menghasilkan rantai pemikiran dengan komponen bahasa alami dan kode. Kemudian, LLM dapat menjalankan kode ini melalui penerjemah eksternal untuk mendapatkan keluaran yang dibutuhkan.

Untuk memahami mengapa pendekatan seperti itu berguna, kita harus mencatat bahwa banyak masalah yang dihadapi LLM (misalnya, kesalahan aritmatika, ketidakmampuan mengevaluasi ekspresi kompleks, dll.) dapat dengan mudah diungkapkan dan diselesaikan di dalam program. Hasilnya, penggunaan rantai petunjuk gaya pemikiran pada LLM dengan kemampuan pengkodean (misalnya, Codex) memungkinkan kita menggabungkan manfaat LLM dengan kemampuan komputasi program Python arbitrer! Lebih khusus lagi, LLM dapat didorong untuk menghasilkan alasan pemecahan masalah yang berisi bahasa alami dan komponen kode, menghasilkan skrip yang dapat dijalankan oleh penerjemah eksternal untuk menghitung keluaran akhir suatu masalah. Pendekatan seperti itu, yang akan kita jelajahi dalam ikhtisar ini, sangat bermanfaat bagi keakuratan dan keandalan LLM dalam menyelesaikan tugas-tugas berbasis penalaran.