Oleh Jan Leike

Postingan ini memberikan ikhtisar dari makalah baru kami yang menguraikan arah penelitian untuk memecahkan masalah penyelarasan agen. Pendekatan kami mengandalkan penerapan pemodelan reward secara rekursif untuk menyelesaikan masalah kompleks di dunia nyata dengan cara yang selaras dengan niat pengguna.

Dalam beberapa tahun terakhir, pembelajaran penguatan telah menghasilkan kinerja yang mengesankan dalam lingkungan permainan yang kompleks mulai dari “Atari”, “Go”, dan “catur” hingga “Dota 2” dan “StarCraft II”, dengan agen buatan yang dengan cepat melampaui tingkat permainan manusia dalam permainan. domain yang semakin kompleks. Game adalah platform ideal untuk mengembangkan dan menguji algoritma pembelajaran mesin. Mereka menyajikan tugas-tugas menantang yang memerlukan serangkaian kemampuan kognitif untuk menyelesaikannya, mencerminkan keterampilan yang dibutuhkan untuk memecahkan masalah di dunia nyata. Peneliti pembelajaran mesin dapat menjalankan ribuan eksperimen simulasi di cloud secara paralel, menghasilkan data pelatihan sebanyak yang diperlukan agar sistem dapat belajar.

Yang terpenting, permainan sering kali memiliki tujuan yang jelas, dan skor yang memperkirakan kemajuan menuju tujuan tersebut. Skor ini memberikan sinyal penghargaan yang berguna bagi agen pembelajaran penguatan, dan memungkinkan kita mendapatkan masukan cepat tentang pilihan algoritmik dan arsitektur mana yang paling berhasil.

Masalah penyelarasan agen

Pada akhirnya, tujuan kemajuan AI adalah memberikan manfaat bagi manusia dengan memungkinkan kita mengatasi tantangan yang semakin kompleks di dunia nyata. Namun dunia nyata tidak dilengkapi dengan fungsi hadiah bawaan. Hal ini menimbulkan beberapa tantangan karena kinerja pada tugas-tugas ini tidak mudah ditentukan. Kita memerlukan cara yang baik untuk memberikan umpan balik dan memungkinkan agen buatan memahami apa yang kita inginkan dengan andal, guna membantu kita mencapainya. Dengan kata lain, kami ingin melatih sistem AI dengan masukan manusia sedemikian rupa sehingga perilaku sistem selaras dengan tujuan kami. Untuk tujuan kami, kami mendefinisikan masalah penyelarasan agen sebagai berikut:

Bagaimana cara membuat agen yang berperilaku sesuai dengan niat pengguna?

Masalah penyelarasan dapat dibingkai dalam kerangka pembelajaran penguatan, kecuali bahwa alih-alih menerima sinyal hadiah numerik, agen dapat berinteraksi dengan pengguna melalui protokol interaksi yang memungkinkan pengguna mengkomunikasikan niat mereka kepada agen. Protokol ini dapat memiliki banyak bentuk: pengguna dapat memberikan “demonstrasi”, “preferensi”, “tindakan optimal”, atau “komunikasikan fungsi hadiah”, misalnya. Solusi terhadap masalah penyelarasan agen adalah kebijakan yang berperilaku sesuai dengan niat pengguna.

Dengan makalah baru kami menguraikan arah penelitian untuk mengatasi masalah penyelarasan agen secara langsung. Berdasarkan “kategorisasi masalah keamanan AI” kami sebelumnya serta “banyak” “masalah” “eksposisi” “tentang” “keamanan AI”, kami memberikan gambaran yang koheren tentang bagaimana kemajuan di bidang ini dapat menghasilkan solusi untuk penyelarasan agen masalah. Hal ini membuka pintu untuk membangun sistem yang dapat lebih memahami cara berinteraksi dengan pengguna, belajar dari masukan mereka, dan memprediksi preferensi mereka — baik dalam domain yang sempit dan sederhana dalam waktu dekat, dan juga domain yang lebih kompleks dan abstrak yang memerlukan pemahaman di luar pemahaman manusia. tingkat dalam jangka panjang.

Penyelarasan melalui pemodelan penghargaan

Tujuan utama dari arah penelitian kami didasarkan pada pemodelan imbalan: kami melatih model imbalan dengan masukan dari pengguna untuk menangkap niat mereka. Pada saat yang sama, kami melatih kebijakan dengan pembelajaran penguatan untuk memaksimalkan imbalan dari model imbalan. Dengan kata lain, kami memisahkan pembelajaran apa yang harus dilakukan (model imbalan) dan pembelajaran bagaimana melakukannya (kebijakan).

Misalnya, dalam pekerjaan sebelumnya kami mengajarkan agen untuk “melakukan backflip dari preferensi pengguna”, untuk “menyusun objek menjadi bentuk dengan contoh keadaan tujuan”, untuk “memainkan permainan Atari dari preferensi pengguna dan demonstrasi ahli”. Di masa depan kami ingin merancang algoritma yang belajar beradaptasi dengan cara pengguna memberikan umpan balik (misalnya menggunakan bahasa alami).

Peningkatan

Dalam jangka panjang, kami ingin memperluas pemodelan penghargaan ke domain yang terlalu rumit untuk dievaluasi secara langsung oleh manusia. Untuk melakukan hal ini, kita perlu meningkatkan kemampuan pengguna untuk mengevaluasi hasil. Kami membahas bagaimana pemodelan imbalan dapat diterapkan secara rekursif: kita dapat menggunakan pemodelan imbalan untuk melatih agen guna membantu pengguna dalam proses evaluasi itu sendiri. Jika evaluasi lebih mudah daripada perilaku, hal ini memungkinkan kita melakukan bootstrap dari tugas yang lebih sederhana ke tugas yang semakin umum dan lebih kompleks. Hal ini dapat dianggap sebagai contoh dari amplifikasi berulang.

Misalnya, bayangkan kita ingin melatih seorang agen untuk merancang sebuah chip komputer. Untuk mengevaluasi desain chip yang diusulkan, kami melatih agen “pembantu” lainnya dengan pemodelan penghargaan untuk mengukur kinerja chip dalam simulasi, menghitung pembuangan panas, memperkirakan masa pakai chip, mencoba menemukan kerentanan keamanan, dan sebagainya. Secara kolektif, keluaran dari agen pembantu ini memungkinkan pengguna untuk melatih agen perancang chip dengan membantu dalam evaluasi desain chip yang diusulkan. Meskipun masing-masing agen pembantu harus menyelesaikan tugas-tugas yang sangat sulit yang jauh dari jangkauan sistem ML saat ini, tugas-tugas ini lebih mudah untuk dilakukan daripada merancang sebuah chip: merancang sebuah chip komputer Anda harus memahami masing-masing tugas evaluasi ini, namun hal sebaliknya tidak benar. Dalam hal ini, pemodelan imbalan rekursif dapat memungkinkan kami “memperancah” agen kami untuk menyelesaikan tugas yang semakin sulit sambil tetap selaras dengan niat pengguna.

Tantangan penelitian

Ada beberapa tantangan yang perlu diatasi untuk memperluas pemodelan penghargaan ke permasalahan kompleks tersebut. Lima dari tantangan-tantangan tersebut tercantum di bawah ini dan dijelaskan secara lebih mendalam dalam makalah ini, beserta pendekatan untuk mengatasinya.

Hal ini membawa kita pada komponen penting terakhir dalam penyelarasan agen: saat menerapkan agen di dunia nyata, kita perlu memberikan bukti kepada pengguna bahwa agen kita memang cukup selaras. Makalah ini membahas lima cara penelitian berbeda yang dapat membantu meningkatkan kepercayaan pada agen kami: pilihan desain, pengujian, interpretasi, verifikasi formal, dan jaminan teoritis. Sasaran ambisiusnya adalah menghasilkan sertifikat keselamatan: artefak yang dapat digunakan untuk membuktikan pengembangan teknologi yang bertanggung jawab dan memberikan kepercayaan diri kepada pengguna untuk mengandalkan agen terlatih.

Pandangan

Meskipun kami percaya bahwa pemodelan penghargaan rekursif adalah arah yang sangat menjanjikan untuk melatih agen yang selaras, saat ini kami tidak tahu seberapa baik skalanya (perlu penelitian lebih lanjut!). Untungnya, ada beberapa arah penelitian lain untuk penyelarasan agen yang sedang dilakukan secara paralel:

Persamaan dan perbedaannya dieksplorasi lebih lanjut dalam makalah ini.

Sama seperti penelitian proaktif mengenai ketahanan sistem visi komputer terhadap masukan yang berlawanan sangat penting untuk aplikasi ML saat ini, penelitian penyelarasan juga dapat menjadi kunci untuk mengatasi hambatan di masa depan dalam “penerapan sistem ML” di domain dunia nyata yang kompleks. Kami punya alasan untuk optimis: meskipun kami memperkirakan akan menghadapi tantangan saat meningkatkan skala model penghargaan, tantangan ini merupakan pertanyaan penelitian teknis yang konkrit dan dapat kami kembangkan. Dalam hal ini, arah penelitian kami siap saat ini untuk penelitian empiris dengan agen pembelajaran penguatan mendalam.

Membuat kemajuan dalam pertanyaan penelitian ini adalah subjek dari pekerjaan yang berkelanjutan di DeepMind. Jika Anda seorang peneliti, insinyur, atau generalis berbakat yang tertarik untuk bergabung dengan kami, silakan lihat posisi terbuka kami dan catat minat Anda pada penelitian penyelarasan saat Anda melamar.

Terima kasih kepada David Krueger, Tom Everitt, Miljan Martic, Vishal Maini, Shane Legg, dan banyak lainnya di DeepMind, OpenAI, dan Future of Humanity Institute yang berkontribusi pada upaya ini.