Memaksimalkan imbalan adalah rahasia kecerdasan buatan

Makalah ini mengajukan hipotesis menarik bahwa memberi insentif kepada agen AI dengan imbalan sudah cukup untuk mencapai Kecerdasan Buatan Umum. Makalah ini lebih merupakan makalah filosofis daripada makalah dengan model dan kode pembelajaran mesin. Saya rasa ini memberi kita indikasi mengapa Deep Mind mencurahkan seluruh upaya dan uangnya untuk mengoptimalkan game dengan agen AI, mereka percaya bahwa mengembangkan agen pencari hadiah terkuat adalah kunci Kecerdasan Buatan. Pada artikel ini, kita akan memahami mengapa mereka percaya demikian.

Mengembangkan keterampilan

Setiap kemampuan muncul dari upaya mencapai suatu tujuan yang dirancang khusus untuk memperoleh kemampuan tersebut.

Sumber: Hadiahnya Cukup Kertas

Lucunya makalah ini dapat dibaca dan dipahami oleh orang/programmer non-teknis. Asumsi pertama mereka adalah bahwa pengembangan suatu keterampilan biasanya muncul dari pengejaran titik akhir atau target tertentu yang memerlukan penguasaan keterampilan tersebut. Pikirkanlah hal ini sejenak dan lihat apakah Anda setuju atau tidak setuju. Contoh bagusnya adalah AlphaZero, agen AI Deepmind yang menguasai game Tiongkok Go. Agen AI tidak dirancang dengan mempertimbangkan keterampilan tertentu. Saya bahkan tidak berpikir bahwa pengembang AI benar-benar memahami atau menguasai keterampilan yang dibutuhkan untuk memainkan game Go. Namun, mereka pandai memasukkan hadiah (dan lingkungan) ke dalam kode yang mengakibatkan agen AI mengembangkan keterampilan tertentu yang bahkan tidak mereka duga seperti menemukan rangkaian pembuka baru dan menggunakan bentuk baru yang mengejutkan [1].

Hipotesis utama

Kecerdasan, dan kemampuan terkaitnya, dapat dipahami sebagai upaya memaksimalkan imbalan yang diberikan oleh agen yang bertindak di lingkungannya.

Sumber: Hadiahnya Cukup Kertas

Inti dari makalah ini adalah untuk mengetahui kapan agen AI (atau orang sebenarnya) mengembangkan keterampilan. Hipotesis utama mereka adalah bahwa keterampilan/kemampuan ini muncul ketika agen/orang mulai mencari imbalan dalam lingkungan tertentu. Pada dasarnya, hal ini menyiratkan bahwa kita bahkan tidak perlu mengajari agen AI keterampilan yang dibutuhkan untuk berkembang di suatu lingkungan, kita hanya perlu memberikan model penghargaan sebaik mungkin dan agen tersebut akan mulai belajar. Analogi serupa dalam pembelajaran gambar yang diawasi adalah mengoptimalkan tujuan yang diawasi daripada memikirkan bagaimana jaringan akan mencapai tujuan ini.

Saya setuju dengan hipotesis ini, namun ada beberapa hal yang ingin saya sampaikan. Pertama-tama, hipotesis ini membuatnya tampak bahwa imbalan jauh lebih penting daripada memodelkan lingkungan, yang menurut saya tidak benar. Jika Anda memiliki imbalan yang dimodelkan dengan sempurna dan lingkungan yang buruk, agen AI Anda kemungkinan besar akan berkinerja buruk. Selain itu, meskipun secara teoritis terdengar valid, penerapan imbalan cukup sulit karena berbagai alasan seperti mengukur tujuan. Misalnya, bagaimana Anda mengukur perasaan seperti kebahagiaan, kepuasan, atau kepuasan yang kemungkinan besar merupakan imbalan.

Kecerdasan Umum (Buatan).

Kecerdasan umum, yang dimiliki oleh manusia dan mungkin juga hewan lain, dapat didefinisikan sebagai kemampuan untuk secara fleksibel mencapai berbagai tujuan dalam konteks berbeda. Menurut hipotesis kami, kecerdasan umum dapat dipahami sebagai, dan diterapkan dengan, memaksimalkan imbalan tunggal dalam satu lingkungan yang kompleks.

Sumber: Hadiahnya Cukup Kertas

Menurut saya, mereka telah mengubah definisi kecerdasan umum agar lebih sesuai dengan makalah ini. Setidaknya itulah perasaan yang saya dapatkan setelah membaca ini. Mereka mengusulkan bahwa memberi seseorang tujuan atau hadiah sudah cukup (mengingat adanya lingkungan yang kompleks) untuk memotivasi mereka mempelajari keterampilan yang menjadikan mereka “cerdas”. Saya pikir ini mungkin benar dalam beberapa kasus tetapi tidak secara umum benar. Beri tahu saya di komentar apa pendapat Anda.

Apakah pembelajaran tanpa pengawasan/supervisi cukup?

Dibandingkan dengan pembelajaran penguatan, pembelajaran tanpa pengawasan menyediakan mekanisme bagi agen untuk mengidentifikasi pola dan membuat prediksi, namun tidak memberikan jalur yang jelas untuk mengembangkan kemampuan dan keterampilan yang diperlukan untuk membuat pilihan, yang pada gilirannya membuatnya tidak cukup untuk kecerdasan buatan secara umum. . Namun, melengkapi pembelajaran penguatan seperti yang terlihat di banyak makalah pembelajaran penguatan SOTA bisa sangat berguna.

Pembelajaran yang diawasi tampaknya lebih cocok untuk kecerdasan buatan umum, Anda memberikan algoritme tujuan dan algoritma bekerja untuk mencapainya. Namun, kumpulan data yang Anda berikan kepada algoritma ini hampir tidak akan pernah cukup untuk mengembangkan Kecerdasan Buatan Umum. Itu akan selalu terbatas dalam beberapa hal, distribusinya akan berbeda dari distribusi di dunia nyata. Namun, hal ini tidak meniadakan fakta bahwa pembelajaran yang diawasi bisa sangat berguna dalam banyak skenario.

Satu hal penting terakhir yang perlu diperhatikan di sini adalah mereka menyatakan bahwa “Pembelajaran offline sepertinya tidak cukup”. Tentu ada beberapa skenario di mana kumpulan data yang disediakan cukup bagi agen untuk memecahkan masalah mendasar. Namun, di sebagian besar permasalahan dunia nyata, pembelajaran online akan diperlukan karena permasalahan & kumpulan data cenderung terus berubah. Hal ini memperjelas pentingnya rekayasa perangkat lunak dalam pembelajaran mesin karena sistem online terutama mengandalkan efisiensi penyimpanan & pengambilan data dan sekadar membangun sistem keseluruhan yang memadai. Hal ini memerlukan pengetahuan luas dalam membangun API, database berkualitas tinggi, dan pipeline.

Pemikiran Akhir

Ini adalah makalah yang cukup kontroversial. Saya rasa saya tidak setuju dengan hipotesis yang mendasarinya, namun menurut saya hipotesis tersebut cukup menggugah pikiran dan itulah mengapa menurut saya akan berguna untuk menulis artikel tentang hipotesis tersebut. Jawaban atas pertanyaan-pertanyaan yang diajukan di sini cukup signifikan dan mendorong diskusi yang sehat.

Jika Anda ingin menerima ulasan makalah secara berkala tentang makalah terbaru dalam AI & Pembelajaran Mesin, tambahkan email Anda di sini & Berlangganan!

https://artisanal-motivator-8249.ck.page/5524b8f934

Referensi:

[1] Hadiahnya Cukup Kertas