โดย แจน ไลค์

โพสต์นี้ให้ภาพรวมของ รายงานใหม่ ของเรา ซึ่งสรุปทิศทางการวิจัยสำหรับการแก้ปัญหาการจัดตำแหน่งตัวแทน แนวทางของเราอาศัยการประยุกต์ใช้การสร้างแบบจำลองการให้รางวัลแบบเรียกซ้ำเพื่อแก้ไขปัญหาที่ซับซ้อนในโลกแห่งความเป็นจริงในลักษณะที่สอดคล้องกับความตั้งใจของผู้ใช้

ในช่วงไม่กี่ปีที่ผ่านมา การเรียนรู้แบบเสริมกำลังให้ประสิทธิภาพที่น่าประทับใจในสภาพแวดล้อมของเกมที่ซับซ้อน ตั้งแต่ "Atari", "Go" และ "หมากรุก" ไปจนถึง "Dota 2" และ "StarCraft II" โดยที่ตัวแทนเทียมนั้นก้าวข้ามระดับการเล่นของมนุษย์อย่างรวดเร็ว โดเมนที่ซับซ้อนมากขึ้น เกมเป็นแพลตฟอร์มที่เหมาะสำหรับการพัฒนาและทดสอบอัลกอริธึมการเรียนรู้ของเครื่อง พวกเขานำเสนองานที่ท้าทายซึ่งต้องใช้ความสามารถทางปัญญาที่หลากหลายจึงจะบรรลุผลสำเร็จ โดยสะท้อนทักษะที่จำเป็นในการแก้ปัญหาในโลกแห่งความเป็นจริง นักวิจัยด้านแมชชีนเลิร์นนิงสามารถดำเนินการทดลองจำลองหลายพันรายการบนคลาวด์ได้แบบคู่ขนาน โดยสร้างข้อมูลการฝึกอบรมได้มากเท่าที่จำเป็นสำหรับระบบในการเรียนรู้

สิ่งสำคัญที่สุดคือ เกมมักมีวัตถุประสงค์ที่ชัดเจน และมีคะแนนที่ใกล้เคียงกับความคืบหน้าในการบรรลุเป้าหมายนั้น คะแนนนี้ให้สัญญาณรางวัลที่เป็นประโยชน์สำหรับตัวแทนการเรียนรู้แบบเสริมกำลัง และช่วยให้เราได้รับคำติชมอย่างรวดเร็วว่าตัวเลือกอัลกอริทึมและสถาปัตยกรรมใดทำงานได้ดีที่สุด

ปัญหาการจัดตำแหน่งตัวแทน

ท้ายที่สุดแล้ว เป้าหมายของความก้าวหน้าของ AI คือการสร้างประโยชน์ให้กับมนุษย์โดยช่วยให้เราสามารถรับมือกับความท้าทายที่ซับซ้อนมากขึ้นในโลกแห่งความเป็นจริง แต่โลกแห่งความเป็นจริงไม่ได้มาพร้อมกับฟังก์ชันการให้รางวัลในตัว สิ่งนี้ทำให้เกิดความท้าทายบางประการเนื่องจากประสิทธิภาพในงานเหล่านี้ไม่สามารถกำหนดได้ง่าย เราต้องการวิธีที่ดีในการให้ข้อเสนอแนะและทำให้ตัวแทนปลอมสามารถเข้าใจสิ่งที่เราต้องการได้อย่างน่าเชื่อถือ เพื่อที่จะช่วยให้เราบรรลุเป้าหมาย กล่าวอีกนัยหนึ่ง เราต้องการฝึกอบรมระบบ AI ด้วยคำติชมของมนุษย์ในลักษณะที่พฤติกรรมของระบบสอดคล้องกับกับความตั้งใจของเรา เพื่อวัตถุประสงค์ของเรา เราให้คำนิยาม ปัญหาการจัดตำแหน่งตัวแทน ดังนี้:

เราจะสร้างตัวแทนที่ทำงานตามความตั้งใจของผู้ใช้ได้อย่างไร

ปัญหาการจัดตำแหน่งสามารถถูกวางกรอบในกรอบการเรียนรู้การเสริมกำลัง ยกเว้นว่าแทนที่จะได้รับสัญญาณรางวัลที่เป็นตัวเลข ตัวแทนสามารถโต้ตอบกับผู้ใช้ผ่านโปรโตคอลการโต้ตอบที่ช่วยให้ผู้ใช้สามารถสื่อสารความตั้งใจของตนไปยัง ตัวแทน. โปรโตคอลนี้สามารถมีได้หลายรูปแบบ: ผู้ใช้สามารถให้ "การสาธิต", "การตั้งค่า", "การดำเนินการที่เหมาะสมที่สุด" หรือ "การสื่อสารฟังก์ชันการให้รางวัล" เป็นต้น วิธีแก้ไขปัญหาการจัดตำแหน่งตัวแทนคือนโยบายที่ทำงานสอดคล้องกับความตั้งใจของผู้ใช้

ด้วย "รายงานฉบับใหม่" ของเรา เราได้ร่างแนวทางการวิจัยเพื่อจัดการกับปัญหาการจัดตำแหน่งของเจ้าหน้าที่โดยตรง จาก "การจัดหมวดหมู่ปัญหาด้านความปลอดภัยของ AI" ก่อนหน้านี้ของเรา เช่นเดียวกับ "ปัญหามากมาย" "ปัญหา" "นิทรรศการ" "ใน" "ความปลอดภัยของ AI" เราได้วาดภาพที่สอดคล้องกันว่าความคืบหน้าในพื้นที่เหล่านี้สามารถให้แนวทางแก้ไขในการจัดตำแหน่งตัวแทนได้อย่างไร ปัญหา. นี่เป็นการเปิดประตูสู่การสร้างระบบที่สามารถเข้าใจวิธีการโต้ตอบกับผู้ใช้ได้ดีขึ้น เรียนรู้จากคำติชมของพวกเขา และคาดการณ์ความชอบของพวกเขา ทั้งในโดเมนที่แคบและเรียบง่ายกว่าในระยะเวลาอันใกล้ และยังรวมถึงโดเมนที่ซับซ้อนและเป็นนามธรรมมากขึ้นซึ่งต้องการความเข้าใจมากกว่ามนุษย์ ระดับในระยะยาว

การจัดตำแหน่งผ่านการสร้างแบบจำลองการให้รางวัล

ทิศทางหลักของการวิจัยของเรานั้นขึ้นอยู่กับการสร้างแบบจำลองรางวัล: เราฝึกอบรมรูปแบบรางวัลพร้อมคำติชมจากผู้ใช้เพื่อดึงดูดความตั้งใจของพวกเขา ในเวลาเดียวกัน เราฝึกอบรมนโยบายด้วยการเรียนรู้แบบเสริมกำลังเพื่อเพิ่มรางวัลสูงสุดจากโมเดลการให้รางวัล กล่าวอีกนัยหนึ่ง เราแยกการเรียนรู้อะไรที่ต้องทำ (รูปแบบการให้รางวัล) จากการเรียนรู้วิธี ทำอย่างไร (นโยบาย)

ตัวอย่างเช่น ในงานก่อนหน้านี้ เราได้สอนตัวแทนให้ "พลิกกลับตามการตั้งค่าของผู้ใช้" เพื่อ "จัดเรียงวัตถุให้เป็นรูปทรงพร้อมตัวอย่างสถานะเป้าหมาย" เพื่อ "เล่นเกม Atari จากการตั้งค่าของผู้ใช้และการสาธิตของผู้เชี่ยวชาญ" ในอนาคต เราต้องการออกแบบอัลกอริทึมที่เรียนรู้ที่จะปรับให้เข้ากับวิธีที่ผู้ใช้ให้ข้อเสนอแนะ (เช่น การใช้ภาษาที่เป็นธรรมชาติ)

ขยายขนาด

ในระยะยาว เราต้องการขยายการสร้างแบบจำลองการให้รางวัลไปยังโดเมนที่ซับซ้อนเกินกว่าที่มนุษย์จะประเมินได้โดยตรง ในการทำเช่นนี้ เราจำเป็นต้องเพิ่มความสามารถของผู้ใช้ในการประเมินผลลัพธ์ เราหารือถึงวิธีการนำการสร้างแบบจำลองรางวัลไปใช้แบบเรียกซ้ำ: เราสามารถใช้การสร้างแบบจำลองรางวัลเพื่อฝึกอบรมตัวแทนให้ช่วยเหลือผู้ใช้ในกระบวนการประเมินได้ หากการประเมินทำได้ง่ายกว่าพฤติกรรม สิ่งนี้อาจช่วยให้เราเริ่มต้นจากงานที่ง่ายกว่าไปเป็นงานทั่วไปและซับซ้อนมากขึ้นได้ นี่ถือได้ว่าเป็นตัวอย่างของ "การขยายสัญญาณแบบวนซ้ำ"

ตัวอย่างเช่น จินตนาการว่าเราต้องการฝึกอบรมตัวแทนให้ออกแบบชิปคอมพิวเตอร์ เพื่อประเมินการออกแบบชิปที่เสนอ เราได้ฝึกอบรมตัวแทน "ผู้ช่วย" อื่นๆ ด้วยการสร้างแบบจำลองรางวัลเพื่อเปรียบเทียบประสิทธิภาพของชิปในการจำลอง คำนวณการกระจายความร้อน ประมาณการอายุการใช้งานของชิป พยายามค้นหาจุดอ่อนด้านความปลอดภัย และอื่นๆ โดยรวมแล้ว ผลลัพธ์ของตัวแทนช่วยเหลือเหล่านี้ทำให้ผู้ใช้สามารถฝึกอบรมตัวแทนออกแบบชิปโดยช่วยเหลือในการประเมินการออกแบบชิปที่นำเสนอ แม้ว่าเจ้าหน้าที่ผู้ช่วยแต่ละคนจะต้องแก้ปัญหางานที่ยากมากซึ่งอยู่ไกลเกินเอื้อมสำหรับระบบ ML ในปัจจุบัน แต่งานเหล่านี้ง่ายกว่าที่จะดำเนินการมากกว่าการออกแบบชิปตั้งแต่แรก นั่นคือ การออกแบบชิปคอมพิวเตอร์ คุณต้องเข้าใจงานประเมินแต่ละงาน แต่สิ่งที่ตรงกันข้ามไม่เป็นความจริง ในแง่นี้ การสร้างแบบจำลองรางวัลแบบเรียกซ้ำสามารถช่วยให้เรา "สนับสนุน" ตัวแทนของเราในการแก้ปัญหางานที่ยากขึ้นมากขึ้นในขณะที่ยังคงสอดคล้องกับความตั้งใจของผู้ใช้

ความท้าทายด้านการวิจัย

มีความท้าทายหลายประการที่จะต้องแก้ไขเพื่อปรับขนาดการสร้างแบบจำลองการให้รางวัลให้เข้ากับปัญหาที่ซับซ้อนดังกล่าว ความท้าทายห้าประการเหล่านี้แสดงอยู่ด้านล่างและอธิบายอย่างละเอียดในรายงาน พร้อมด้วยแนวทางในการจัดการกับปัญหาเหล่านั้น

สิ่งนี้นำเราไปสู่องค์ประกอบสำคัญขั้นสุดท้ายสำหรับการจัดตำแหน่งตัวแทน: เมื่อปรับใช้ตัวแทนในโลกแห่งความเป็นจริง เราจำเป็นต้องแสดงหลักฐานแก่ผู้ใช้ว่าตัวแทนของเรามีความสอดคล้องเพียงพอจริงๆ บทความนี้กล่าวถึงแนวทางการวิจัยที่แตกต่างกันห้าแนวทางที่สามารถช่วยเพิ่มความไว้วางใจในตัวแทนของเรา: ตัวเลือกการออกแบบ การทดสอบ การตีความได้ การตรวจสอบอย่างเป็นทางการ และการรับประกันทางทฤษฎี เป้าหมายอันทะเยอทะยานคือการผลิตใบรับรองความปลอดภัย: สิ่งประดิษฐ์ที่สามารถใช้เพื่อพิสูจน์การพัฒนาเทคโนโลยีที่มีความรับผิดชอบ และให้ผู้ใช้มั่นใจในการพึ่งพาตัวแทนที่ได้รับการฝึกอบรม

แนวโน้ม

แม้ว่าเราเชื่อว่าการสร้างแบบจำลองรางวัลแบบเรียกซ้ำเป็นทิศทางที่มีความหวังมากสำหรับการฝึกอบรมตัวแทนที่มีความสอดคล้อง แต่ในปัจจุบันเรายังไม่รู้ว่ามันจะขยายขนาดได้ดีเพียงใด (จำเป็นต้องมีการวิจัยเพิ่มเติม!) โชคดีที่มีแนวทางการวิจัยอื่นๆ หลายประการสำหรับการจัดตำแหน่งของตัวแทนที่กำลังดำเนินการควบคู่กันไป:

ความเหมือนและความแตกต่างมีการสำรวจเพิ่มเติมในบทความนี้

เช่นเดียวกับการวิจัยเชิงรุกเกี่ยวกับความแข็งแกร่งของระบบคอมพิวเตอร์วิทัศน์ต่ออินพุตของฝ่ายตรงข้ามเป็นสิ่งสำคัญสำหรับแอปพลิเคชัน ML ในปัจจุบัน ดังนั้น การวิจัยการจัดตำแหน่งอาจเป็นกุญแจสำคัญในการก้าวนำหน้าปัญหาคอขวดในอนาคตสำหรับ "การปรับใช้ระบบ ML" ในโดเมนโลกแห่งความเป็นจริงที่ซับซ้อน เรามีเหตุผลที่จะมองโลกในแง่ดี: แม้ว่าเราคาดว่าจะเผชิญกับความท้าทายเมื่อขยายขนาดการสร้างแบบจำลองรางวัล ความท้าทายเหล่านี้เป็นคำถามการวิจัยทางเทคนิคที่เป็นรูปธรรมที่เราสามารถสร้างความคืบหน้าได้ ในแง่นี้ ทิศทางการวิจัยของเราพร้อมจอบในวันนี้สำหรับการวิจัยเชิงประจักษ์ด้วยตัวแทนการเรียนรู้แบบเสริมกำลังเชิงลึก

การสร้างความก้าวหน้าให้กับคำถามการวิจัยเหล่านี้เป็นหัวข้อของการทำงานอย่างต่อเนื่องที่ DeepMind หากคุณเป็น "นักวิจัย" "วิศวกร" หรือผู้เชี่ยวชาญทั่วไปที่มีความสามารถที่สนใจร่วมงานกับเรา โปรดดู "ตำแหน่งที่เปิดรับ" ของเรา และบันทึกความสนใจในการวิจัยการจัดตำแหน่งเมื่อคุณสมัคร

ขอขอบคุณ David Krueger, Tom Everitt, Miljan Martic, Vishal Maini, Shane Legg และคนอื่นๆ อีกมากมายที่ DeepMind, OpenAI และ Future of Humanity Institute ที่มีส่วนร่วมในความพยายามนี้