ปัญญาประดิษฐ์คือจุดที่เครื่องจักรเรียนรู้ที่จะตัดสินใจและดำเนินการอย่างชาญฉลาด การเรียนรู้แบบไม่มีผู้ดูแลจะค้นหารูปแบบในข้อมูลพื้นฐาน การเรียนรู้แบบมีผู้สอนทำนายตัวแปรเป้าหมายตามตัวแปรอินพุต อย่างไรก็ตาม พวกเขาไม่ได้บอกเราจริงๆ ว่าควรดำเนินการอย่างไร พวกเขาไม่สามารถดำเนินการได้หากไม่มีกลยุทธ์การเพิ่มประสิทธิภาพเพิ่มเติม นี่คือจุดที่การเรียนรู้แบบเสริมกำลังเข้ามามีบทบาท เจ้าหน้าที่ RL สังเกตการณ์โลกและค้นหาแนวทางปฏิบัติที่ดีที่สุด แต่พวกเขาตัดสินใจได้อย่างไรว่าจะดำเนินการใด? ในซีรีส์นี้ เราจะมาดูโลกของการตัดสินใจเชิงวิเคราะห์ของเครื่องจักร

เล่นเกมกันเถอะ! 🎮

สมมติว่าคุณเป็นลิงนำโชคและมีกล้วยหล่นจากต้น 3 ต้น คุณชอบมันเพราะคุณสามารถรวบรวมมันได้โดยไม่ต้องใช้ความพยายาม อย่างไรก็ตามกล้วยเหล่านี้เน่าเสียเร็วมาก เนื่องจากกล้วยจะเน่าเสียจนไปต้นถัดไปจึงควรเลือกต้นหนึ่ง คุณสามารถอยู่ภายใต้หนึ่งใน 3 ต้นไม้เหล่านี้ได้ ดังนั้นคุณมี 3 การกระทำ ให้เลือก คุณยังสามารถสังเกตจำนวนกล้วย (รางวัล) ที่คุณได้รับจากการกระทำแต่ละครั้ง ลองจินตนาการว่าคุณกำลังเล่นเกมนี้ 1,000 ครั้ง คุณจะตัดสินใจอย่างไรเพื่อให้ได้กล้วยให้ได้มากที่สุดในแต่ละครั้ง?

เอ่อ… คำถามนั้นให้คำตอบในตัวมันเอง คุณจะเลือกต้นไม้ที่ทิ้งกล้วยมากที่สุด อย่างไรก็ตาม เราไม่ทราบจำนวนกล้วยของแต่ละต้นแน่ชัด โชคดีที่เราสามารถสำรวจทางเลือกอื่นๆ ได้โดยการสังเกตการกระทำแบบสุ่มและประเมินรางวัล เพื่อให้เราสามารถ ใช้ประโยชน์ ถัดไป โดยเลือกการกระทำที่ได้รับรางวัลมากที่สุด เอาล่ะ นี่คือการทำงานของ โจรหลายแขน จริงๆ!

ความสมดุลคือกุญแจสำคัญ! ☯

อย่างที่เราบอกไป เรามีงานสองงานที่ต้องทำและงานทั้งสองก็มีความสำคัญสำหรับเรา การสำรวจทำให้ตัวแทนของเราทราบข้อมูลเกี่ยวกับสิ่งแวดล้อมมากขึ้น และการแสวงหาประโยชน์ช่วยเพิ่มผลตอบแทนสูงสุดให้กับเรา เช่นเดียวกับปัญหาส่วนใหญ่ในชีวิต เราควรแลกเปลี่ยนตรงนี้และค้นหาจุดเซนของเรา :) แล้วเราจะหาสมดุลที่เหมาะสมระหว่างการสำรวจและการแสวงหาประโยชน์ได้อย่างไร?

โดยส่วนใหญ่ กลยุทธ์แรกที่นึกถึงคือการดำเนินการแบบสุ่มเป็นครั้งคราว ในที่นี้เป็นครั้งคราวหมายถึงมีความน่าจะเป็นที่แน่นอน ตัวอย่างเช่น หากเราต้องการมีความน่าจะเป็น 50% ในการดำเนินการแบบสุ่ม เราก็สามารถโยนเหรียญได้ จากนั้นเราสามารถดำเนินการสุ่มได้หากเป็นหัวและดำเนินการที่เหมาะสมที่สุดในปัจจุบันหากเป็นก้อย ในทางปฏิบัติ ความน่าจะเป็นนี้จะกลายเป็นอัตราส่วนของการดำเนินการสำรวจต่อการดำเนินการทั้งหมด กลยุทธ์นี้เรียกว่า ε-Greedy

ถึงเวลาสำหรับภาษาที่แปลกใหม่…
โจรหลายอาวุธสำหรับการตัดสินใจแบบแยกขั้นตอนเดียวด้วยกลยุทธ์ ε-Greedy:
ให้ชุดการกระทำ A:
1. ดำเนินการสุ่มโดยมีความน่าจะเป็น ε หรือดำเนินการ a_i เพื่อให้ a_i = argmax_a(R(a))
2. สังเกตรางวัลและอัปเดตรางวัลโดยประมาณ:
R(a) = ค่าเฉลี่ย(รางวัลที่สังเกตสำหรับ a)

ดีมาก เราได้พัฒนาอัลกอริธึมแรกของเราสำหรับการตัดสินใจแบบแยกขั้นตอนเดียว! แต่เดี๋ยวก่อน… ความน่าจะเป็นในการสำรวจที่ดีคืออะไร? ไม่มีกฎเกณฑ์ที่บอกว่า X คุ้มค่าที่สุดสำหรับสิ่งนั้น ลุยเลย เราควรค้นหามันด้วยการลองผิดลองถูก เราสร้างโจรหลายกลุ่มที่มีค่า ε ต่างกัน และเปรียบเทียบรางวัลทั้งหมดหลังจากดำเนินการในจำนวนที่เท่ากัน

คำถามก็คือ ถ้าเราสามารถสร้างสมดุลระหว่างการสำรวจและการแสวงหาประโยชน์โดยไม่ให้ความน่าจะเป็นนี้อย่างชัดเจน และหลีกเลี่ยงความยุ่งยาก คำตอบคือใช่! เราสามารถสร้างสมดุลโดยปริยายได้โดยใช้ขอบเขตความเชื่อมั่นขั้นสูงสำหรับรางวัลโดยประมาณ กล่าวอีกนัยหนึ่ง แทนที่จะดำเนินการโดยให้ผลตอบแทนที่คาดหวังมากที่สุด เราสามารถดำเนินการที่อาจให้ผลตอบแทนที่คาดหวังมากที่สุดได้ เนื่องจากความไม่แน่นอนของรางวัลที่คาดหวังลดลงตามจำนวนการสังเกตที่เพิ่มขึ้น เราจึงมอบประโยชน์ของความสงสัยให้กับการกระทำที่เรายังไม่ได้พยายามมากพอ หากมีตัวเลือกที่มีขีดจำกัดสูงสุดของรางวัลที่คาดหวัง กลยุทธ์นี้จะเลือกตัวเลือกนั้นเพื่อสำรวจโอกาส ซึ่งอาจดีกว่าการดำเนินการที่ดีที่สุดในปัจจุบัน สิ่งนี้ช่วยให้เราสามารถสำรวจการกระทำโดยปริยายซึ่งมีผลตอบแทนที่คาดหวังต่ำกว่า แต่มีศักยภาพสูงกว่า ในเวลาเดียวกัน หลังจากทำซ้ำได้เพียงพอ ขีดจำกัดบนจะเข้าใกล้ความหมายสำหรับการดำเนินการทั้งหมดมากขึ้น ดังนั้นการตัดสินใจของเราจึงเข้าใกล้การตัดสินใจที่เลือกผลตอบแทนที่คาดหวังมากที่สุดมากขึ้น

ถึงเวลาสำหรับภาษาที่แปลกใหม่อีกครั้ง…
โจรหลายอาวุธสำหรับการตัดสินใจแบบแยกขั้นตอนเดียวด้วย UCB1:
ให้ชุดการกระทำ A:
1. ดำเนินการ a_i เพื่อให้ a_i = argmax_a( R(a))
2. สังเกตรางวัลและอัปเดตรางวัลโดยประมาณ:
R(a) = Mean(รางวัลที่สังเกตได้สำหรับ a)
+ sqrt(2 * ln(#total actions ถ่ายแล้ว) / #actions ดำเนินการสำหรับ a)

สรุป:
1. ในการตั้งค่าการตัดสินใจแบบแยกขั้นตอนเดียว โจรสามารถดำเนินการตามนโยบายและสังเกตผลตอบแทนได้
2. หากต้องการดำเนินการอย่างชาญฉลาด พวกเขาต้องทำ 2 งาน ประการแรกคือการสำรวจสภาพแวดล้อมและประเมินผลตอบแทนสำหรับการดำเนินการ ประการที่สอง พวกเขาต้องใช้ประโยชน์โดยเลือกการกระทำตามรางวัลโดยประมาณ
3. เพื่อสร้างสมดุลระหว่างการสำรวจและการแสวงหาประโยชน์ เราสามารถใช้กลยุทธ์ ε-Greedy หรือ UCB