กระบวนการตัดสินใจของมาร์คอฟ - การเรียนรู้แบบเสริมกำลัง
เราตัดสินใจทุกวัน แต่อะไรจะตัดสินว่าเราตัดสินใจอย่างไร?
ทำไมคุณถึงตัดสินใจกินเบเกิลกับครีมชีส? ทำไมคุณถึงตัดสินใจสวมเสื้อที่น่าเกลียดขนาดนั้น? (😆jk คุณสุดยอดมาก) แล้วทำไมคุณถึงตัดสินใจอ่านบทความนี้ล่ะ?
ในบริบทของการเรียนรู้แบบเสริมกำลัง กระบวนการตัดสินใจของเราสามารถกำหนดเป็นกระบวนการตัดสินใจของมาร์คอฟ (MDP)
MDP อธิบายสภาพแวดล้อมที่สามารถสังเกตได้อย่างสมบูรณ์
ฉันจะทำลายมันลงเพื่อคุณ
สมมติว่าคุณอยู่ที่ร้านอาหาร และคุณต้องเลือกอาหารเรียกน้ำย่อยหนึ่งรายการ ( จากแถวแรก) อาหารเรียกน้ำย่อยหนึ่งรายการ (จากแถวที่สอง) และของหวานหนึ่งรายการ (จากแถวที่สาม) จากสามรายการที่แสดง
เราอยากให้คุณซึ่งเป็นตัวแทนเลือกอาหารที่ดีที่สุดเท่าที่จะเป็นไปได้ ทั้งในด้านสุขภาพและความพึงพอใจทุกครั้งที่คุณอยู่ที่ร้านอาหาร
เราจะทำเช่นนี้ได้อย่างไร?
ประการแรก เราสามารถจัดรูปแบบปัญหาการเรียนรู้แบบเสริมกำลังให้เป็นระบบ MDP ได้
มาดูกันว่า MDP คืออะไรเป็นอันดับแรก
MDP ทุกแห่งมีคุณสมบัติที่เรียกว่า คุณสมบัติ Markov เป็นสิ่งที่ทำให้เกิดกระบวนการตัดสินใจของมาร์คอฟ หรือกระบวนการตัดสินใจของมาร์คอฟ
Markov Property บอกเราว่า "อนาคตเป็นอิสระจากอดีตในปัจจุบัน"
สมมติว่าคุณตัดสินใจซื้อมันฝรั่งทอดเป็นอาหารเรียกน้ำย่อยและเบอร์เกอร์เป็นอาหารเรียกน้ำย่อยที่ร้านอาหาร ไม่ว่าคุณจะตัดสินใจเลือกไอศกรีม น้ำส้ม หรือแตงโมเป็นของหวานไม่ได้ขึ้นอยู่กับการเลือกอาหารในอดีตของคุณ แต่ขึ้นอยู่กับสถานะปัจจุบันของคุณเท่านั้น
สมการข้างต้นแสดงให้เห็นแนวคิดเดียวกัน สถานะถัดไป S_t+1 ขึ้นอยู่กับสถานะปัจจุบันของเรา S_t และไม่ใช่สถานะก่อนหน้าทั้งหมดของเรา
แต่เราจะไปจากสถานะก่อนหน้าไปสู่สถานะอนาคตได้อย่างไรตั้งแต่แรก? เราจะตัดสินใจได้อย่างไร และอะไรทำให้ตัดสินใจเช่นนั้น?
นั่นคือนโยบาย
นโยบายสรุปว่าผู้เรียนของเรา (ในกรณีนี้คือคุณ) จะตัดสินใจอย่างไร
บอกเราว่าการกระทำใดที่เราจะเลือกเมื่อเราอยู่ในบางรัฐ
ในกรณีนี้ นโยบายของเราจะระบุว่าควรเลือกอาหารประเภทใด
เป้าหมายของการเรียนรู้แบบเสริมกำลังคือการค้นหานโยบายที่ให้ผลตอบแทนที่คาดหวังทั้งหมดแก่เรามากที่สุด
หากต้องการไปจากรัฐหนึ่งไปอีกรัฐหนึ่ง เราสามารถกำหนดความน่าจะเป็นในการดำเนินการดังกล่าวได้เช่นเดียวกับความน่าจะเป็นในการเปลี่ยนสถานะ ในบริบทของตัวอย่างนี้ เราจะบอกว่ารัฐคือการเลือกอาหาร เช่น ถ้าฉันเลือกมันฝรั่งทอด เบอร์เกอร์ และไอศกรีม สองสถานะก่อนหน้านี้ของฉันคือมันฝรั่งทอดและเบอร์เกอร์ แต่ไอศกรีมคือสถานะปัจจุบันของฉัน
ความน่าจะเป็นในการเปลี่ยนสถานะ
เมทริกซ์ความน่าจะเป็นของการเปลี่ยนสถานะนี้บอกเราถึงความน่าจะเป็นที่จะไปจากสถานะหนึ่งไปอีกสถานะหนึ่ง
กลับไปที่ตัวอย่างของเราในการเลือกมื้ออาหารที่จะเลือกที่ร้านอาหาร เมื่อเลือกมื้ออาหารที่เราอยากกิน มีความน่าจะเป็นที่เกี่ยวข้องกับการเลือกมื้ออาหารบางมื้อ
ดังนั้น หากเราตัดสินใจเลือกอาหารเรียกน้ำย่อยมันฝรั่งทอด มีความน่าจะเป็น 0.3 ที่เขาเลือกเบอร์เกอร์ ความน่าจะเป็น 0.4 ที่เขาเลือกพิซซ่า และความน่าจะเป็น 0.5 ที่เขาเลือกสปาเก็ตตี้ ตัวอย่างนี้มีความน่าจะเป็นในการเปลี่ยนแปลงสถานะเชิงอัตวิสัยเนื่องจากเราพิจารณาจากความเพลิดเพลิน
เมื่อคุณทราบอย่างเป็นทางการแล้วว่าคุณสมบัติ Markov คืออะไรและเมทริกซ์การเปลี่ยนแปลงสถานะคืออะไร เราสามารถกำหนดได้ว่ากระบวนการ Markov คืออะไร
มีสององค์ประกอบของกระบวนการมาร์คอฟ:
- S —พื้นที่สถานะซึ่งมีสถานะที่เป็นไปได้ทั้งหมด
- P — ความน่าจะเป็นในการเปลี่ยนแปลงสถานะที่เกี่ยวข้องกับทุกรัฐและรัฐในอนาคต
ตัวอย่างที่คุณเลือกอาหารเรียกน้ำย่อย อาหารจานหลัก และของหวานที่ร้านอาหารก็เป็นตัวอย่างหนึ่งของ Markov Chain ลูกโซ่มาร์คอฟเป็นเพียงลำดับของสถานะที่เป็นไปได้ที่มีความน่าจะเป็นในการเปลี่ยนสถานะที่เกี่ยวข้อง
โปรดจำไว้ว่าเมื่อฉันกล่าวว่าเป้าหมายของ RL คือการค้นหานโยบายที่ให้ผลตอบแทนที่คาดหวังทั้งหมดแก่เรามากที่สุด กระบวนการให้รางวัลมาร์คอฟบอกเราถึงมูลค่ารางวัลที่เกี่ยวข้องกับมาร์คอฟเชน
กระบวนการให้รางวัลมาร์คอฟ
กระบวนการให้รางวัลมาร์คอฟมีองค์ประกอบเพิ่มเติมสองประการจากกระบวนการมาร์คอฟของเรา
- S —พื้นที่สถานะซึ่งมีสถานะที่เป็นไปได้ทั้งหมด
- P —ความน่าจะเป็นในการเปลี่ยนสถานะที่เกี่ยวข้องกับทุกรัฐและสถานะในอนาคต
- R—ฟังก์ชันการให้รางวัลที่ให้มูลค่ารางวัลของการอยู่ในบางรัฐ
- γ —ปัจจัยส่วนลด ซึ่งเป็นค่าที่บอกเราว่ารางวัลในอนาคตมีความสำคัญเพียงใด γ ∈ [0, 1]
นี่เป็นสิ่งสำคัญ แต่สิ่งที่เราต้องการจริงๆ ในตอนท้ายของ Markov Chain คือการกลับมา
กลับ
ผลตอบแทนคือรางวัลลดราคาทั้งหมดที่คาดหวังที่เราได้รับจากการเลือกการกระทำบางอย่างและจบลงในบางรัฐใน MDP ของเรา
ที่นี่เราจะเห็นว่าผลตอบแทนถูกกำหนดเป็นมูลค่ารางวัลทั้งหมดคูณด้วยปัจจัยส่วนลดในแต่ละช่วงเวลาของขั้นตอน t γ บอกเราว่าเราต้องการให้ตัวแทนพิจารณารางวัลในอนาคตของเรามีความสำคัญเพียงใด
หากเราตั้งค่า γ=0 แสดงว่าตัวแทนของเราดูเฉพาะรางวัลในปัจจุบัน ไม่ใช่รางวัลในอนาคต เราเรียกการเรียนรู้ประเภทนี้ว่าสายตาสั้นหรือสายตาสั้นได้เพราะมองได้เฉพาะรางวัลในปัจจุบันไม่ใช่อนาคต ถ้า γ=1 แสดงว่าตัวแทนมีวิสัยทัศน์กว้างไกล เพราะจะพิจารณารางวัลในอนาคตด้วย
ตอนนี้เรารู้เกี่ยวกับคุณสมบัติ Markov กระบวนการ Markov และกระบวนการ Markov Rewards แล้ว แต่เราจะใช้อะไรในการประเมินแบบจำลองของเราจริงๆ
ฟังก์ชันค่า
ฟังก์ชันค่าบอกเราว่าการที่ตัวแทนของเราอยู่ในสถานะใดสถานะหนึ่งนั้นดีเพียงใด
ฟังก์ชันค่าใน RL มีสองประเภท:
ฟังก์ชันค่าสถานะ
มันบอกเราว่ารัฐดีแค่ไหนเมื่อปฏิบัติตามนโยบาย
ฟังก์ชันค่าการกระทำ
ฟังก์ชันค่าการดำเนินการบอกเราว่าการดำเนินการนั้นดีเพียงใดเมื่อปฏิบัติตามนโยบาย เป็นผลตอบแทนที่คาดหวังที่เราได้รับเมื่อดำเนินการและสถานะที่เป็นไปตามนโยบายบางอย่าง
ตอนนี้เราจะไปหานโยบายที่เหมาะสมที่สุดได้อย่างไร?
เราใช้สมการที่สำคัญมากที่เรียกว่า สมการเบลล์แมน
บัตต์ ไปพักที่นั่นกันเถอะ ฉันจะอธิบายส่วนนี้ในบทความถัดไป ไม่ต้องกังวล คุณจะมีตัวเลือกอาหารที่ดีที่สุดได้ในไม่ช้า
ขอบคุณที่อ่าน! หากคุณสนใจที่จะเรียนรู้เพิ่มเติมเกี่ยวกับโครงการของฉัน/สิ่งที่ฉันกำลังทำอยู่ คุณสามารถ...
- เข้าไปดูที่ www.briannagopaul.com
- ติดตามฉันบน Twitter
- เชื่อมต่อกับฉันบน LinkedIn
- หรือส่งอีเมลถึงฉันที่ briannagopaul14@gmail.com 😄