ข้อจำกัดความรับผิดชอบที่สำคัญ:ข้อมูลอ้างอิงที่ดีสำหรับทั้งโพสต์นี้และการทำความเข้าใจการเรียนรู้แบบเสริมกำลังตามแบบจำลองคือ "สไลด์ของ Chelsea Finn จาก Berkeley Deep RL Bootcamp" เธออธิบายการเรียนรู้แบบเสริมกำลังตามแบบจำลองได้ดีมาก แต่เช่นเคย ฉันจะพยายามอย่างดีที่สุดเพื่อไม่ให้คณิตศาสตร์อยู่ได้นานที่สุด

เพื่อสรุปจาก "โพสต์ล่าสุด" ของเรา ในงานการเรียนรู้แบบเสริมกำลัง ตัวแทนของเราจำเป็นต้องมีสภาพแวดล้อมในการเดินและดำเนินการ ในสภาพแวดล้อมนี้ ตัวแทนของเราจะได้รับสถานะ และจากนั้นจะถูกขอให้ดำเนินการเพื่อดำเนินการ หลังจากดำเนินการแล้ว สภาพแวดล้อมจะทำให้เจ้าหน้าที่มีสถานะต่อไป เช่นเดียวกับรางวัล ในการเรียนรู้การเสริมกำลังตามแบบจำลอง เป้าหมายคือไม่เพียงเพิ่มประสิทธิภาพนโยบายเพื่อเพิ่มรางวัลสูงสุด แต่ยังเพื่อ ประมาณความน่าจะเป็นของการเปลี่ยนแปลง p(s' | s, a) ด้วยสิ่งนี้ เราจึงสามารถ เรียนรู้ว่าตัวแทนของเราอาจเปลี่ยนแปลงอย่างไรหากเราดำเนินการในขณะที่เราอยู่ในสถานะ

คำถามทั่วไปจึงกลายเป็นว่า เหตุใดเราจึงต้องทราบความน่าจะเป็นของการเปลี่ยนแปลงเหล่านี้

ความน่าจะเป็นในการเปลี่ยนแปลงเหล่านี้ (ซึ่งสามารถสลับกับวลี แบบจำลองสภาพแวดล้อม) ทำให้หุ่นยนต์สามารถ จำลอง ประสบการณ์ได้ เช่นเดียวกับที่มนุษย์ ลองจินตนาการถึงสิ่งที่อาจเกิดขึ้นหากพวกเขาโดดเรียน เปลี่ยนเลนรถ หรือกินพิซซ่าเพิ่มอีกชิ้น โมเดลสภาพแวดล้อมที่ดีสามารถช่วยให้ตัวแทนเข้าใจถึงสิ่งที่อาจเกิดขึ้นได้หากดำเนินการบางอย่างในบางสถานะ โดยที่ไม่ได้โต้ตอบกับสภาพแวดล้อมจริงๆ ยิ่งแบบจำลองสภาพแวดล้อมดีเท่าไร เราก็ยิ่งต้องโต้ตอบกับแบบจำลองน้อยลงเพื่อเพิ่มประสิทธิภาพนโยบายของเรา

เนื่องจากอัลกอริธึมการทดสอบเอกสารการเรียนรู้เสริมกำลังจำนวนมากที่ทำงานในสภาพแวดล้อม เช่น Atari, Minecraft และวิธีการจำลองอื่นๆ อัลกอริธึมที่ไม่มีแบบจำลองมักจะพบได้ทั่วไปมากกว่าเล็กน้อย สิ่งต่างๆ เช่น ทฤษฎีบทการไล่ระดับนโยบายช่วยให้อัลกอริธึมที่ไม่มีแบบจำลองสามารถปรับนโยบายให้เหมาะสมโดยอิงตามผลตอบแทนที่ได้รับจากสภาพแวดล้อมเพียงอย่างเดียว และเนื่องจากเราอยู่ในการจำลอง การดำเนินการที่ไม่ถูกต้อง ไม่ถูกต้อง หรือเป็นอันตรายจึงไม่เสียหายอย่างแท้จริง

ในการใช้งานทางกายภาพของการเรียนรู้แบบเสริมกำลัง โดยเฉพาะหุ่นยนต์ การดำเนินการที่ "ไม่ถูกต้อง" เหล่านี้มีค่าใช้จ่าย หุ่นยนต์ในโลกแห่งความเป็นจริงอาจได้รับความเสียหายได้ และสภาพแวดล้อมในชีวิตจริงนั้นไม่ใช่เรื่องง่ายที่จะรีเซ็ต (โดยเฉพาะเมื่อเปรียบเทียบกับอินเทอร์เฟซ env.reset() ของ OpenAI Gym) ด้วยแบบจำลองสภาพแวดล้อมที่ดี หุ่นยนต์สามารถปรับปรุงนโยบายผ่านการจำลองโดยไม่ต้องโต้ตอบทางกายภาพกับระบบเลย เมื่อนโยบายการเรียนรู้ของมันดีเพียงพอหรือในทางเทคนิคแล้ว มาบรรจบกันไปสู่จุดที่เหมาะสมที่สุดในท้องถิ่นหุ่นยนต์สามารถนำไปใช้ในโลกทางกายภาพและทำงานได้ดี แม้ว่าจะไม่เคยถูกใช้งานในโลกทางกายภาพก็ตาม< /แข็งแกร่ง>. ในชีวิตจริง ปกติแล้วเราไม่มีแบบจำลองสภาพแวดล้อม ที่ ที่ดี แต่ดังที่เราจะเห็นในโพสต์ต่อๆ ไป มีวิธีต่างๆ ที่จะสร้างแบบจำลองที่ค่อนข้างแข็งแกร่งซ้ำๆ

ตอนนี้เรารู้แล้วว่าจะใช้มันได้อย่างไร และมันทำอะไรได้บ้าง เราก็เริ่มเข้าสู่เรื่องสนุก ๆ ได้แล้ว: อธิบายว่าแบบจำลองเหล่านี้ถูกสร้างขึ้นมาได้อย่างไร ก่อนที่เราจะจบโพสต์ปัจจุบันนี้ มีประโยชน์อีกสองสามประการสำหรับการเรียนรู้แบบเสริมตามแบบจำลองที่ควรคำนึงถึง

  1. วิธีการตามแบบจำลองมีประสิทธิภาพมากกว่ามาก
    การเรียนรู้แบบเสริมกำลังสามารถแบ่งออกเป็นประเภทต่างๆ ได้ค่อนข้างมาก แต่โดยทั่วไปแล้ว มี วิธีที่ไม่มีการไล่ระดับ วิธีที่ไม่มีแบบจำลอง และวิธีการตามแบบจำลอง
    วิธีที่ปราศจากการไล่ระดับสี วิธีที่มีชื่อเสียงที่สุดคือ "กลยุทธ์เชิงวิวัฒนาการ" ใช้การก่อกวนแบบสุ่มเพื่อค้นหานโยบายที่ดี สามารถปรับขนาดได้ แต่ตัวอย่างไม่มีประสิทธิภาพอย่างมาก
    วิธีการที่ไม่มีแบบจำลอง เพิ่มประสิทธิภาพนโยบายโดยตรงโดยอิงตามการคืนสินค้า ลำดับของขนาดประสิทธิภาพตัวอย่างที่สูงขึ้น (ขึ้นอยู่กับประเภทของวิธีการที่ใช้) แต่ก็ยังไม่มาก
    วิธีการตามแบบจำลอง ซึ่งใช้การจำลองซ้ำ / ดำเนินการรอบ ที่เราจะพูดถึงในรายละเอียดเพิ่มเติมในโพสต์หน้าจะมีประสิทธิภาพมากที่สุด
  2. วิธีการตามแบบจำลองสามารถถ่ายโอนได้
    ในขณะที่เราเจาะลึกรายละเอียดของอัลกอริธึมการเรียนรู้การเสริมกำลังตามแบบจำลองยอดนิยม เช่น Guided Policy Search เราจะเห็นการใช้งานบางอย่างของสิ่งนี้

ในบล็อกโพสต์ต่อไปนี้ เราจะตั้งเป้าที่จะสำรวจประโยชน์ของการเรียนรู้แบบเสริมกำลังตามแบบจำลอง ความก้าวหน้าในสาขานี้ และขอบเขตการวิจัยที่กำลังดำเนินอยู่ในปัจจุบัน การเรียนรู้แบบเสริมกำลัง โดยเฉพาะแนวทางแบบโมเดล หากความสนใจของคุณเพิ่มขึ้น โปรดอ่านต่อ!

โพสต์นี้เป็นส่วนที่ 2 ของเนื้อหาบางส่วน ซึ่งเราจะพยายามเข้าถึงสิ่งที่เรียกว่าการเรียนรู้แบบเสริมแรงแบบไร้โมเดลจากมุมมองของผู้ที่ไม่ค่อยมีความรู้

  1. ส่วนที่ 1: บทนำ
  2. ส่วนที่ 2: RL ตามโมเดล
  3. ส่วนที่ 3: RL รูปแบบนิยม