สิ่งตีพิมพ์ในหัวข้อ 'reinforcement-learning'


วิวัฒนาการของวิธีการไล่ระดับนโยบายในการเรียนรู้แบบเสริมกำลัง: จากการเสริมกำลังไปจนถึง EVM
การเรียนรู้แบบเสริมกำลัง (RL) เป็นขอบเขตของการเรียนรู้ของเครื่องที่เจ้าหน้าที่ต้องเรียนรู้ว่าต้องดำเนินการอย่างไรในการโต้ตอบกับสภาพแวดล้อม เพื่อเพิ่มรางวัลสะสมให้สูงสุด การตั้งค่าพื้นฐานมีดังต่อไปนี้: ตัวแทนจะสังเกตสถานะของสภาพแวดล้อม เลือกการดำเนินการที่จะดำเนินการ รับรางวัลเป็นการตอบกลับจากสภาพแวดล้อม จากนั้นจึงเปลี่ยนไปสู่สถานะถัดไป เรื่องราวการเรียนรู้แบบเสริมกำลังมักจะเริ่มต้นด้วยภาพดังนี้ มีแนวทางที่แตกต่างกันมากมายของ RL: ทั้งในเชิงนโยบายและนอกนโยบาย ไร้โมเดลและอิงตามโมเดล..

การจัดตำแหน่งตัวแทนที่ปรับขนาดได้ผ่านการสร้างแบบจำลองรางวัล
โดย แจน ไลค์ โพสต์นี้ให้ภาพรวมของ รายงานใหม่ ของเรา ซึ่งสรุปทิศทางการวิจัยสำหรับการแก้ปัญหาการจัดตำแหน่งตัวแทน แนวทางของเราอาศัยการประยุกต์ใช้การสร้างแบบจำลองการให้รางวัลแบบเรียกซ้ำเพื่อแก้ไขปัญหาที่ซับซ้อนในโลกแห่งความเป็นจริงในลักษณะที่สอดคล้องกับความตั้งใจของผู้ใช้ ในช่วงไม่กี่ปีที่ผ่านมา การเรียนรู้แบบเสริมกำลังให้ประสิทธิภาพที่น่าประทับใจในสภาพแวดล้อมของเกมที่ซับซ้อน ตั้งแต่ "Atari", "Go" และ "หมากรุก" ไปจนถึง "Dota 2" และ "StarCraft II"..

การเรียนรู้ของเครื่องคืออะไร?
การเรียนรู้ของเครื่องเป็นปัญญาประดิษฐ์ (AI) ประเภทหนึ่งที่ค่อยๆ เพิ่มความแม่นยำโดยมุ่งเน้นไปที่การใช้ข้อมูลและอัลกอริธึมเพื่อเลียนแบบวิธีที่มนุษย์เรียนรู้ เหตุใดเราจึงใช้อัลกอริธึมการเรียนรู้ของเครื่อง เนื่องจากจำนวนคุณลักษณะเพิ่มขึ้น การตรวจสอบย้อนกลับของคุณลักษณะเหล่านี้และความสามารถในการปรับตัวต่อปัญหาบางอย่างอาจไม่สามารถทำได้ นั่นเป็นเหตุผลที่เราใช้อัลกอริธึมการเรียนรู้ของเครื่อง การเรียนรู้ของเครื่องมีหลายประเภท การเรียนรู้ภายใต้การดูแล : ในแมชชีนเลิร์นนิงประเภทนี้..