Proses Keputusan Markov - Pembelajaran Penguatan

Kami membuat keputusan setiap hari. Tapi apa yang menentukan cara kita mengambil keputusan?

Mengapa Anda memutuskan untuk makan bagel dengan krim keju? Mengapa Anda memutuskan untuk memakai atasan jelek itu? (😆jk, kamu hebat) Dan mengapa kamu memutuskan untuk membaca artikel ini?

Dalam konteks pembelajaran penguatan, proses pengambilan keputusan kita dapat dirumuskan sebagai Proses Keputusan Markov (MDP).

MDP menggambarkan lingkungan yang dapat diamati sepenuhnya.

Saya akan menguraikannya untuk Anda.

Katakanlah Anda sedang berada di sebuah restoran. Dan Anda harus memilih satu hidangan pembuka (dari baris pertama), satu hidangan utama (dari baris kedua) dan satu hidangan penutup (dari baris ketiga) dari tiga yang ditampilkan.

Kami ingin Anda, sebagai agen, memilih makanan terbaik, dalam hal kesehatan dan kepuasan setiap kali Anda berada di restoran.

Bagaimana kita bisa melakukan ini?

Pertama, kita dapat memformalkan masalah pembelajaran penguatan ini sebagai MDP.

Mari kita bahas apa itu MDP terlebih dahulu.

Setiap MDP memiliki properti yang disebut Properti Markov. Hal inilah yang membuat Proses Keputusan Markov menjadi Proses Keputusan Markov.

Properti Markov memberi tahu kita bahwa “masa depan tidak bergantung pada masa lalu mengingat masa kini”.

Katakanlah Anda memutuskan untuk membeli kentang goreng sebagai hidangan pembuka dan burger sebagai hidangan utama Anda di restoran. Apakah Anda memutuskan untuk memilih es krim, jus jeruk, atau semangka sebagai hidangan penutup tidak bergantung pada pilihan pilihan makanan Anda sebelumnya, itu hanya bergantung pada keadaan Anda saat ini.

Persamaan di atas menggambarkan gagasan yang sama. Keadaan berikutnya S_t+1 bergantung pada keadaan kita saat ini S_t dan tidak semua keadaan kita sebelumnya.

Namun bagaimana caranya kita beralih dari kondisi sebelumnya ke kondisi masa depan? Bagaimana kita mengambil keputusan itu dan apa yang membuat keputusan itu?

Itulah kebijakannya.

Kebijakan tersebut menguraikan bagaimana pembelajar kami (dalam hal ini Anda) akan mengambil keputusan.

Ini memberi tahu kita tindakan mana yang akan kita pilih ketika kita berada di negara bagian tertentu.

Dalam hal ini, kebijakan kami akan memberi tahu kami pilihan makanan mana yang harus diambil.

Tujuan dari pembelajaran penguatan adalah untuk menemukan kebijakan yang memberikan kita jumlah total imbalan yang diharapkan paling banyak.

Untuk berpindah dari satu negara ke negara lain, kita dapat mendefinisikan probabilitas untuk melakukan hal tersebut sebagai probabilitas transisi negara. Dalam konteks contoh ini, kita akan mengatakan bahwa negara bagian adalah pilihan makanan. Misalnya, jika saya memilih kentang goreng, burger, dan es krim. Dua negara bagian saya sebelumnya adalah kentang goreng dan burger, tetapi es krim adalah negara bagian saya saat ini.

Probabilitas transisi negara

Matriks Probabilitas Transisi Keadaan ini memberi tahu kita kemungkinan berpindah dari satu keadaan ke keadaan lain.

Mari kita kembali ke contoh kita dalam memilih makanan mana yang akan dipilih di restoran. Saat memilih makanan yang ingin kita makan, ada kemungkinan terkait dengan memilih makanan tertentu.

Jadi jika kita memutuskan untuk memilih hidangan pembuka kentang goreng, ada kemungkinan 0,3 dia memilih burger, 0,4 kemungkinan dia memilih pizza, dan 0,5 kemungkinan dia memilih spageti. Contoh ini memiliki probabilitas transisi keadaan subjektif karena kami mendasarkannya pada kesenangan.

Sekarang setelah Anda mengetahui secara formal apa itu Properti Markov dan matriks transisi keadaan, kita dapat mendefinisikan apa itu Proses Markov.

Ada dua komponen dari setiap Proses Markov:

  1. S —Ruang keadaan di mana semua kemungkinan keadaan ada.
  2. P — Probabilitas transisi keadaan yang terkait dengan setiap keadaan dan keadaan di masa depan.

Contoh Anda memilih hidangan pembuka, hidangan utama, dan hidangan penutup di sebuah restoran adalah contoh Rantai Markov. Rantai Markov hanyalah serangkaian kemungkinan keadaan yang memiliki probabilitas transisi keadaan terkait dengannya.

Ingat ketika saya menyebutkan bahwa tujuan RL adalah menemukan polis yang memberi kita jumlah total imbalan yang diharapkan paling banyak. Proses Markov Reward memberi tahu kita nilai imbalan yang terkait dengan Rantai Markov.

Proses Hadiah Markov

Proses Markov Reward memiliki dua elemen tambahan dari Proses Markov kami.

  1. S —Ruang keadaan di mana semua kemungkinan keadaan ada.
  2. P —Probabilitas transisi keadaan yang terkait dengan setiap keadaan dan keadaan di masa depan.
  3. R—Fungsi imbalan yang memberi kita nilai imbalan karena berada dalam kondisi tertentu.
  4. γ —Faktor diskon, nilai yang memberi tahu kita betapa pentingnya imbalan di masa depan. γ ∈ [0, 1]

Ini penting, tapi apa yang sebenarnya kita inginkan di akhir Rantai Markov adalah pengembaliannya.

Kembali

Pengembaliannya adalah total imbalan diskon yang diharapkan yang kami peroleh dari memilih tindakan tertentu dan berakhir di negara bagian tertentu di MDP kami.

Di sini kita melihat bahwa return didefinisikan sebagai total nilai reward dikalikan dengan faktor diskon pada setiap langkah waktu t. γ memberi tahu kita betapa pentingnya kita ingin imbalan di masa depan dipertimbangkan oleh agen.

Jika kita menetapkan γ=0, maka agen kita hanya melihat imbalan saat ini dan bukan imbalan di masa depan. Pembelajaran seperti ini bisa kita sebut sebagai pembelajaran yang rabun atau picik karena pembelajaran ini hanya melihat manfaat saat ini dan bukan masa depan. Jika γ=1, maka agen akan berpandangan jauh ke depan karena akan mempertimbangkan imbalan di masa depan juga.

Sekarang kita tahu tentang Properti Markov, Proses Markov, dan Proses Imbalan Markov, tetapi apa yang sebenarnya kita gunakan untuk mengevaluasi model kita.

Fungsi Nilai

Fungsi nilai memberi tahu kita seberapa baik agen kita berada dalam keadaan tertentu.

Ada dua jenis fungsi nilai di RL:

Fungsi Nilai Status

Ini memberi tahu kita seberapa baik suatu negara dalam mengikuti suatu kebijakan.

Fungsi Nilai Tindakan

Fungsi nilai tindakan memberi tahu kita seberapa baik suatu tindakan ketika mengikuti suatu kebijakan. Ini adalah hasil yang diharapkan yang kita peroleh ketika memberikan suatu tindakan dan keadaan yang mengikuti kebijakan tertentu.

Sekarang bagaimana kita mencari kebijakan yang optimal?

Kami menggunakan persamaan yang sangat penting yang disebut Persamaan Bellman.

Butttt, ayo istirahat disana. Saya akan menjelaskan bagian ini di artikel berikutnya. Jangan khawatir, Anda akan segera membuat pilihan pilihan makanan terbaik.

Terima kasih telah membaca! Jika Anda tertarik untuk mempelajari lebih lanjut tentang proyek saya/apa yang sedang saya kerjakan, Anda dapat…