Penafian Besar:Referensi yang bagus untuk postingan ini dan pemahaman pembelajaran penguatan berbasis model adalah slide Chelsea Finn dari Berkeley Deep RL Bootcamp. Dia melakukan pekerjaan yang baik dalam menjelaskan pembelajaran penguatan berbasis model, tetapi seperti sebelumnya, saya akan melakukan yang terbaik untuk tidak menggunakan matematika selama mungkin.

Untuk merangkum dari postingan terakhir kami, dalam tugas pembelajaran penguatan, agen kami memerlukan lingkungan untuk berkeliaran dan bertindak. Dalam lingkungan ini, agen kami menerima status, dan kemudian diminta untuk melakukan tindakan. Setelah menjalankan suatu tindakan, lingkungan memberi agen keadaan berikutnya, serta hadiah. Dalam pembelajaran penguatan berbasis model, tujuannya bukan hanya mengoptimalkan kebijakan untuk memaksimalkan imbalan, namun juga memperkirakan probabilitas transisi, p(s' | s, a). Dengan ini, kita dapat pelajari bagaimana agen kita dapat bertransisi jika kita mengambil tindakan saat kita berada di status.

Pertanyaan wajarnya adalah, mengapa kita perlu mengetahui probabilitas transisi ini?

Probabilitas transisi ini (yang dapat dipertukarkan dengan frasa model lingkungan) memberi robot kemampuan untuk mensimulasikan pengalaman, seperti halnya manusia bayangkan apa yang mungkin terjadi jika mereka membolos, berpindah jalur mobil, atau makan sepotong pizza ekstra. Model lingkungan yang baik dapat membantu agen memahami apa yang mungkin terjadi jika ia mengambil tindakan tertentu dalam keadaan tertentu, semuanya tanpa benar-benar berinteraksi dengan lingkungan itu sendiri. Semakin baik model lingkungan hidup, semakin sedikit kita perlu berinteraksi dengannya untuk mengoptimalkan kebijakan kita.

Karena banyak makalah pembelajaran penguatan menguji algoritme yang berjalan di lingkungan seperti Atari, Minecraft, dan metode berbasis simulasi lainnya, algoritme tanpa model biasanya lebih umum. Hal-hal seperti Teorema Gradien Kebijakan memungkinkan algoritme bebas model untuk mengoptimalkan kebijakan berdasarkan pengembalian yang diterima dari lingkungan saja, dan karena kita berada dalam simulasi, tidak ada salahnya melakukan tindakan yang salah, tidak tepat, atau berbahaya.

Dalam penerapan pembelajaran penguatan secara fisik, khususnya robotika, ada konsekuensinya jika melakukan tindakan yang “salah” ini. Robot di dunia nyata dapat rusak, dan lingkungan di kehidupan nyata tidak mudah untuk diatur ulang (terutama jika dibandingkan dengan antarmuka env.reset() OpenAI Gym). Dengan model lingkungan yang baik, robot dapat meningkatkan kebijakannya melalui simulasi tanpa harus berinteraksi secara fisik dengan sistem. Ketika kebijakan yang dipelajari menjadi cukup baik, atau secara teknis, menyatu ke titik optimal lokal,robot dapat diterapkan di dunia fisik dan bekerja dengan baik, meskipun belum pernah dijalankan di dunia fisik. Sekarang, dalam kehidupan nyata, kita biasanya tidak memiliki model lingkungan yang itu bagus, namun seperti yang akan kita lihat di postingan selanjutnya, ada cara untuk membangun model lingkungan yang cukup solid secara berulang.

Sekarang kita tahu bagaimana kita dapat menggunakannya, dan apa yang mereka lakukan, kita bisa mulai beralih ke hal-hal menyenangkan: menjelaskan bagaimana model-model ini sebenarnya dibuat. Sebelum kita mengakhiri postingan kali ini, ada beberapa manfaat pembelajaran penguatan berbasis model yang perlu diingat.

  1. Metode berbasis model jauh lebih efisien.
    Pembelajaran penguatan dapat dibagi menjadi beberapa kelas berbeda, namun secara umum, ada metode bebas gradien, metode bebas model, dan metode berbasis model. Metode
    Bebas gradien, yang paling terkenal adalah strategi evolusioner, menggunakan gangguan acak untuk menemukan kebijakan yang baik. Skalabel, namun sangat tidak efisien dalam pengambilan sampel.
    Metode tanpa model secara langsung mengoptimalkan kebijakan berdasarkan pengembalian. Tingkat efisiensi sampel yang lebih tinggi (bergantung pada kelas metode yang digunakan), namun masih belum bagus.
    Metode berbasis model, yang menggunakan siklus simulasi/performa berulang yang akan kita bahas lebih detail pada postingan berikutnya, adalah yang paling efisien sejauh ini.
  2. Metode berbasis model dapat ditransfer.
    Saat kita mendalami lebih jauh detail algoritme pembelajaran penguatan berbasis model yang populer seperti Penelusuran Kebijakan Terpandu, kita akan melihat beberapa penerapannya.

Dalam postingan blog berikut, kami bertujuan untuk mengeksplorasi manfaat pembelajaran penguatan berbasis model, kemajuan di lapangan, dan bidang penelitian aktif saat ini. Reinforcement Learning, khususnya pendekatan berbasis model. Jika minat Anda terus meningkat, teruslah membaca!

Postingan ini adalah Bagian 2 dari beberapa postingan, di mana kita akan mencoba mendekati apa yang disebut Pembelajaran Penguatan Tanpa Model dari perspektif yang kurang matematika.

  1. Bagian 1: Pendahuluan
  2. Bagian 2: RL berbasis model
  3. Bagian 3: Formalisme RL