กระบวนการตัดสินใจของมาร์คอฟ - การเรียนรู้แบบเสริมกำลัง

เราตัดสินใจทุกวัน แต่อะไรจะตัดสินว่าเราตัดสินใจอย่างไร?

ทำไมคุณถึงตัดสินใจกินเบเกิลกับครีมชีส? ทำไมคุณถึงตัดสินใจสวมเสื้อที่น่าเกลียดขนาดนั้น? (😆jk คุณสุดยอดมาก) แล้วทำไมคุณถึงตัดสินใจอ่านบทความนี้ล่ะ?

ในบริบทของการเรียนรู้แบบเสริมกำลัง กระบวนการตัดสินใจของเราสามารถกำหนดเป็นกระบวนการตัดสินใจของมาร์คอฟ (MDP)

MDP อธิบายสภาพแวดล้อมที่สามารถสังเกตได้อย่างสมบูรณ์

ฉันจะทำลายมันลงเพื่อคุณ

สมมติว่าคุณอยู่ที่ร้านอาหาร และคุณต้องเลือกอาหารเรียกน้ำย่อยหนึ่งรายการ ( จากแถวแรก) อาหารเรียกน้ำย่อยหนึ่งรายการ (จากแถวที่สอง) และของหวานหนึ่งรายการ (จากแถวที่สาม) จากสามรายการที่แสดง

เราอยากให้คุณซึ่งเป็นตัวแทนเลือกอาหารที่ดีที่สุดเท่าที่จะเป็นไปได้ ทั้งในด้านสุขภาพและความพึงพอใจทุกครั้งที่คุณอยู่ที่ร้านอาหาร

เราจะทำเช่นนี้ได้อย่างไร?

ประการแรก เราสามารถจัดรูปแบบปัญหาการเรียนรู้แบบเสริมกำลังให้เป็นระบบ MDP ได้

มาดูกันว่า MDP คืออะไรเป็นอันดับแรก

MDP ทุกแห่งมีคุณสมบัติที่เรียกว่า คุณสมบัติ Markov เป็นสิ่งที่ทำให้เกิดกระบวนการตัดสินใจของมาร์คอฟ หรือกระบวนการตัดสินใจของมาร์คอฟ

Markov Property บอกเราว่า "อนาคตเป็นอิสระจากอดีตในปัจจุบัน"

สมมติว่าคุณตัดสินใจซื้อมันฝรั่งทอดเป็นอาหารเรียกน้ำย่อยและเบอร์เกอร์เป็นอาหารเรียกน้ำย่อยที่ร้านอาหาร ไม่ว่าคุณจะตัดสินใจเลือกไอศกรีม น้ำส้ม หรือแตงโมเป็นของหวานไม่ได้ขึ้นอยู่กับการเลือกอาหารในอดีตของคุณ แต่ขึ้นอยู่กับสถานะปัจจุบันของคุณเท่านั้น

สมการข้างต้นแสดงให้เห็นแนวคิดเดียวกัน สถานะถัดไป S_t+1 ขึ้นอยู่กับสถานะปัจจุบันของเรา S_t และไม่ใช่สถานะก่อนหน้าทั้งหมดของเรา

แต่เราจะไปจากสถานะก่อนหน้าไปสู่สถานะอนาคตได้อย่างไรตั้งแต่แรก? เราจะตัดสินใจได้อย่างไร และอะไรทำให้ตัดสินใจเช่นนั้น?

นั่นคือนโยบาย

นโยบายสรุปว่าผู้เรียนของเรา (ในกรณีนี้คือคุณ) จะตัดสินใจอย่างไร

บอกเราว่าการกระทำใดที่เราจะเลือกเมื่อเราอยู่ในบางรัฐ

ในกรณีนี้ นโยบายของเราจะระบุว่าควรเลือกอาหารประเภทใด

เป้าหมายของการเรียนรู้แบบเสริมกำลังคือการค้นหานโยบายที่ให้ผลตอบแทนที่คาดหวังทั้งหมดแก่เรามากที่สุด

หากต้องการไปจากรัฐหนึ่งไปอีกรัฐหนึ่ง เราสามารถกำหนดความน่าจะเป็นในการดำเนินการดังกล่าวได้เช่นเดียวกับความน่าจะเป็นในการเปลี่ยนสถานะ ในบริบทของตัวอย่างนี้ เราจะบอกว่ารัฐคือการเลือกอาหาร เช่น ถ้าฉันเลือกมันฝรั่งทอด เบอร์เกอร์ และไอศกรีม สองสถานะก่อนหน้านี้ของฉันคือมันฝรั่งทอดและเบอร์เกอร์ แต่ไอศกรีมคือสถานะปัจจุบันของฉัน

ความน่าจะเป็นในการเปลี่ยนสถานะ

เมทริกซ์ความน่าจะเป็นของการเปลี่ยนสถานะนี้บอกเราถึงความน่าจะเป็นที่จะไปจากสถานะหนึ่งไปอีกสถานะหนึ่ง

กลับไปที่ตัวอย่างของเราในการเลือกมื้ออาหารที่จะเลือกที่ร้านอาหาร เมื่อเลือกมื้ออาหารที่เราอยากกิน มีความน่าจะเป็นที่เกี่ยวข้องกับการเลือกมื้ออาหารบางมื้อ

ดังนั้น หากเราตัดสินใจเลือกอาหารเรียกน้ำย่อยมันฝรั่งทอด มีความน่าจะเป็น 0.3 ที่เขาเลือกเบอร์เกอร์ ความน่าจะเป็น 0.4 ที่เขาเลือกพิซซ่า และความน่าจะเป็น 0.5 ที่เขาเลือกสปาเก็ตตี้ ตัวอย่างนี้มีความน่าจะเป็นในการเปลี่ยนแปลงสถานะเชิงอัตวิสัยเนื่องจากเราพิจารณาจากความเพลิดเพลิน

เมื่อคุณทราบอย่างเป็นทางการแล้วว่าคุณสมบัติ Markov คืออะไรและเมทริกซ์การเปลี่ยนแปลงสถานะคืออะไร เราสามารถกำหนดได้ว่ากระบวนการ Markov คืออะไร

มีสององค์ประกอบของกระบวนการมาร์คอฟ:

  1. S —พื้นที่สถานะซึ่งมีสถานะที่เป็นไปได้ทั้งหมด
  2. P — ความน่าจะเป็นในการเปลี่ยนแปลงสถานะที่เกี่ยวข้องกับทุกรัฐและรัฐในอนาคต

ตัวอย่างที่คุณเลือกอาหารเรียกน้ำย่อย อาหารจานหลัก และของหวานที่ร้านอาหารก็เป็นตัวอย่างหนึ่งของ Markov Chain ลูกโซ่มาร์คอฟเป็นเพียงลำดับของสถานะที่เป็นไปได้ที่มีความน่าจะเป็นในการเปลี่ยนสถานะที่เกี่ยวข้อง

โปรดจำไว้ว่าเมื่อฉันกล่าวว่าเป้าหมายของ RL คือการค้นหานโยบายที่ให้ผลตอบแทนที่คาดหวังทั้งหมดแก่เรามากที่สุด กระบวนการให้รางวัลมาร์คอฟบอกเราถึงมูลค่ารางวัลที่เกี่ยวข้องกับมาร์คอฟเชน

กระบวนการให้รางวัลมาร์คอฟ

กระบวนการให้รางวัลมาร์คอฟมีองค์ประกอบเพิ่มเติมสองประการจากกระบวนการมาร์คอฟของเรา

  1. S —พื้นที่สถานะซึ่งมีสถานะที่เป็นไปได้ทั้งหมด
  2. P —ความน่าจะเป็นในการเปลี่ยนสถานะที่เกี่ยวข้องกับทุกรัฐและสถานะในอนาคต
  3. R—ฟังก์ชันการให้รางวัลที่ให้มูลค่ารางวัลของการอยู่ในบางรัฐ
  4. γ —ปัจจัยส่วนลด ซึ่งเป็นค่าที่บอกเราว่ารางวัลในอนาคตมีความสำคัญเพียงใด γ ∈ [0, 1]

นี่เป็นสิ่งสำคัญ แต่สิ่งที่เราต้องการจริงๆ ในตอนท้ายของ Markov Chain คือการกลับมา

กลับ

ผลตอบแทนคือรางวัลลดราคาทั้งหมดที่คาดหวังที่เราได้รับจากการเลือกการกระทำบางอย่างและจบลงในบางรัฐใน MDP ของเรา

ที่นี่เราจะเห็นว่าผลตอบแทนถูกกำหนดเป็นมูลค่ารางวัลทั้งหมดคูณด้วยปัจจัยส่วนลดในแต่ละช่วงเวลาของขั้นตอน t γ บอกเราว่าเราต้องการให้ตัวแทนพิจารณารางวัลในอนาคตของเรามีความสำคัญเพียงใด

หากเราตั้งค่า γ=0 แสดงว่าตัวแทนของเราดูเฉพาะรางวัลในปัจจุบัน ไม่ใช่รางวัลในอนาคต เราเรียกการเรียนรู้ประเภทนี้ว่าสายตาสั้นหรือสายตาสั้นได้เพราะมองได้เฉพาะรางวัลในปัจจุบันไม่ใช่อนาคต ถ้า γ=1 แสดงว่าตัวแทนมีวิสัยทัศน์กว้างไกล เพราะจะพิจารณารางวัลในอนาคตด้วย

ตอนนี้เรารู้เกี่ยวกับคุณสมบัติ Markov กระบวนการ Markov และกระบวนการ Markov Rewards แล้ว แต่เราจะใช้อะไรในการประเมินแบบจำลองของเราจริงๆ

ฟังก์ชันค่า

ฟังก์ชันค่าบอกเราว่าการที่ตัวแทนของเราอยู่ในสถานะใดสถานะหนึ่งนั้นดีเพียงใด

ฟังก์ชันค่าใน RL มีสองประเภท:

ฟังก์ชันค่าสถานะ

มันบอกเราว่ารัฐดีแค่ไหนเมื่อปฏิบัติตามนโยบาย

ฟังก์ชันค่าการกระทำ

ฟังก์ชันค่าการดำเนินการบอกเราว่าการดำเนินการนั้นดีเพียงใดเมื่อปฏิบัติตามนโยบาย เป็นผลตอบแทนที่คาดหวังที่เราได้รับเมื่อดำเนินการและสถานะที่เป็นไปตามนโยบายบางอย่าง

ตอนนี้เราจะไปหานโยบายที่เหมาะสมที่สุดได้อย่างไร?

เราใช้สมการที่สำคัญมากที่เรียกว่า สมการเบลล์แมน

บัตต์ ไปพักที่นั่นกันเถอะ ฉันจะอธิบายส่วนนี้ในบทความถัดไป ไม่ต้องกังวล คุณจะมีตัวเลือกอาหารที่ดีที่สุดได้ในไม่ช้า

ขอบคุณที่อ่าน! หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับโครงการของฉัน/สิ่งที่ฉันกำลังทำอยู่ คุณสามารถ...

  • เข้าไปดูที่ www.briannagopaul.com
  • ติดตามฉันบน Twitter
  • เชื่อมต่อกับฉันบน LinkedIn
  • หรือส่งอีเมลถึงฉันที่ briannagopaul14@gmail.com 😄