การเพิ่มรางวัลสูงสุดคือความลับของปัญญาประดิษฐ์

บทความนี้เสนอสมมติฐานที่น่าสนใจว่าการสร้างแรงจูงใจให้กับตัวแทน AI ด้วยรางวัลนั้นเพียงพอที่จะบรรลุปัญญาประดิษฐ์ทั่วไปได้ บทความนี้เป็นบทความเชิงปรัชญามากกว่าบทความที่มีโมเดลและโค้ดการเรียนรู้ของเครื่อง ฉันเดาว่านี่เป็นข้อบ่งชี้ว่าทำไม Deep Mind จึงทุ่มความพยายามและเงินทั้งหมดเพื่อเพิ่มประสิทธิภาพเกมด้วยตัวแทน AI พวกเขาเชื่อว่าการพัฒนาตัวแทนที่แสวงหารางวัลที่แข็งแกร่งที่สุดเป็นกุญแจสำคัญในปัญญาประดิษฐ์ ในบทความนี้ เราจะมาทำความเข้าใจว่าทำไมพวกเขาถึงเชื่อเช่นนั้น

การพัฒนาทักษะ

ความสามารถแต่ละอย่างเกิดจากการแสวงหาเป้าหมายที่ออกแบบมาโดยเฉพาะเพื่อดึงเอาความสามารถนั้นออกมา

ที่มา: รางวัลมีกระดาษเพียงพอ

สิ่งที่ตลกเกี่ยวกับบทความนี้ก็คือผู้ที่ไม่มีความรู้ด้านเทคนิคสามารถอ่านและทำความเข้าใจได้ ข้อสันนิษฐานแรกของพวกเขาคือการพัฒนาทักษะมักเกิดจากการไล่ตามจุดสิ้นสุดหรือเป้าหมายที่ต้องใช้ทักษะนี้ ลองคิดดูสักครู่แล้วดูว่าคุณเห็นด้วยหรือไม่เห็นด้วย ตัวอย่างที่ดีของสิ่งนี้คือ AlphaZero ซึ่งเป็นเอเจนต์ AI ของ Deepmind ที่เชี่ยวชาญเกม Go ของจีน ตัวแทน AI ไม่ได้ได้รับการออกแบบโดยคำนึงถึงทักษะบางอย่าง ฉันไม่คิดว่านักพัฒนา AI จะเข้าใจหรือมีทักษะที่จำเป็นในการเล่นเกม Go ได้ดีจริงๆ อย่างไรก็ตาม พวกเขาเก่งในการใส่รางวัล (และสภาพแวดล้อม) ลงในโค้ด ซึ่งส่งผลให้เจ้าหน้าที่ AI พัฒนาทักษะบางอย่างที่แม้แต่พวกเขาไม่คาดคิด เช่น การค้นพบลำดับการเปิดใหม่ และใช้รูปร่างใหม่ที่น่าประหลาดใจ [1]

สมมติฐานหลัก

ความฉลาดและความสามารถที่เกี่ยวข้อง สามารถเข้าใจได้ว่าเป็นการยอมให้รางวัลสูงสุดโดยตัวแทนที่ทำหน้าที่ในสภาพแวดล้อมของมัน

ที่มา: รางวัลมีกระดาษเพียงพอ

แก่นของบทความนี้คือการพิจารณาว่าเมื่อใดที่เจ้าหน้าที่ AI (หรือบุคลากร) พัฒนาทักษะ สมมติฐานหลักของพวกเขาคือทักษะ/ความสามารถเหล่านี้เกิดขึ้นเมื่อตัวแทน/ผู้คนเริ่มแสวงหารางวัลในสภาพแวดล้อมบางอย่าง โดยพื้นฐานแล้ว นี่หมายความว่าเราไม่จำเป็นต้องสอนตัวแทน AI ถึงทักษะที่จำเป็นต่อการเติบโตในสภาพแวดล้อม เราเพียงแค่ต้องสร้างโมเดลรางวัลให้ดีที่สุดเท่าที่จะทำได้ จากนั้นรางวัลก็จะเริ่มเรียนรู้ การเปรียบเทียบที่คล้ายกันในการเรียนรู้ด้วยภาพภายใต้การดูแลก็คือการปรับเป้าหมายภายใต้การดูแลให้เหมาะสม แทนที่จะคิดว่าเครือข่ายจะบรรลุเป้าหมายนี้ได้อย่างไร

ฉันเห็นด้วยกับสมมติฐานนี้ในแง่หนึ่ง แต่ฉันมีประเด็นที่ต้องทำสองสามข้อ ประการแรก สมมติฐานนี้ทำให้ดูเหมือนว่ารางวัลมีความสำคัญมากกว่าการสร้างแบบจำลองสภาพแวดล้อม ซึ่งฉันไม่คิดว่าจะเป็นจริง หากคุณมีรางวัลตามแบบอย่างที่สมบูรณ์แบบและมีสภาพแวดล้อมที่ไม่ดี ตัวแทน AI ของคุณก็มีแนวโน้มที่จะมีประสิทธิภาพต่ำกว่า นอกจากนี้ แม้ว่าอาจฟังดูใช้ได้ในทางทฤษฎี แต่การดำเนินการให้รางวัลนั้นค่อนข้างยากเนื่องจากเหตุผลหลายประการ เช่น วัตถุประสงค์เชิงปริมาณ ตัวอย่างเช่น คุณจะวัดปริมาณความรู้สึก เช่น ความสุข ความพึงพอใจ หรือความสำเร็จที่มีแนวโน้มว่าจะได้รับรางวัลสูงได้อย่างไร

หน่วยสืบราชการลับทั่วไป (ประดิษฐ์)

ความฉลาดทั่วไปประเภทที่มนุษย์และสัตว์อื่นๆ ครอบครอง อาจนิยามได้ว่าเป็นความสามารถในการบรรลุเป้าหมายต่างๆ ได้อย่างยืดหยุ่นในบริบทที่ต่างกัน ตามสมมติฐานของเรา ความฉลาดทั่วไปสามารถเข้าใจแทนและนำไปปฏิบัติโดยการเพิ่มรางวัลเอกพจน์ให้สูงสุดในสภาพแวดล้อมที่ซับซ้อนเพียงแห่งเดียว

ที่มา: รางวัลมีกระดาษเพียงพอ

สำหรับฉันดูเหมือนว่าพวกเขาได้เปลี่ยนคำจำกัดความของความฉลาดทั่วไปเพื่อให้เหมาะกับบทความนี้มากขึ้น อย่างน้อยนั่นคือความรู้สึกที่ได้รับจากการอ่านเรื่องนี้ พวกเขาเสนอว่าการให้เป้าหมายหรือรางวัลแก่ใครบางคนก็เพียงพอแล้ว (เนื่องจากมีสภาพแวดล้อมที่ซับซ้อน) เพื่อกระตุ้นให้พวกเขาเรียนรู้ทักษะที่ทำให้พวกเขา “ฉลาด” ฉันคิดว่านี่อาจเป็นจริงในบางกรณี แต่ไม่เป็นความจริงโดยทั่วไป แจ้งให้เราทราบในความคิดเห็นว่าคุณคิดอย่างไร

การเรียนรู้แบบไม่มีผู้ดูแล/ภายใต้การดูแลเพียงพอหรือไม่?

เมื่อเปรียบเทียบกับการเรียนรู้แบบเสริมกำลัง การเรียนรู้แบบไม่มีผู้ดูแลเป็นกลไกสำหรับตัวแทนในการระบุรูปแบบและคาดการณ์ แต่ไม่ได้ให้แนวทางที่ชัดเจนในการพัฒนาความสามารถและทักษะที่จำเป็นสำหรับการตัดสินใจ ซึ่งจะทำให้ไม่เพียงพอสำหรับปัญญาประดิษฐ์ทั่วไป . อย่างไรก็ตาม การเสริมการเรียนรู้การเสริมกำลังอาจมีประโยชน์มากทีเดียว ดังที่เห็นในเอกสารการเรียนรู้การเสริมกำลัง SOTA จำนวนมาก

การเรียนรู้แบบมีผู้สอนดูเหมือนจะเหมาะสมกว่าสำหรับปัญญาประดิษฐ์ทั่วไป คุณให้อัลกอริธึมมีเป้าหมายและมันก็ทำงานตามนั้น อย่างไรก็ตาม ชุดข้อมูลที่คุณให้อัลกอริทึมนี้แทบจะไม่เพียงพอที่จะพัฒนาปัญญาประดิษฐ์ทั่วไปเลย มันจะถูกจำกัดในทางใดทางหนึ่งเสมอ การกระจายตัวจะแตกต่างจากการกระจายตัวในโลกความเป็นจริง อย่างไรก็ตาม นี่ไม่ได้เป็นการปฏิเสธความจริงที่ว่าการเรียนรู้แบบมีผู้สอนอาจมีประโยชน์มากในสถานการณ์ต่างๆ มากมาย

ประเด็นสำคัญประการสุดท้ายที่ควรทราบก็คือ พวกเขาชี้ให้เห็นว่า “การเรียนรู้แบบออฟไลน์ไม่น่าจะเพียงพอ” แน่นอนว่ามีบางสถานการณ์ที่ชุดข้อมูลที่ให้ไว้เพียงพอสำหรับเอเจนต์ในการแก้ปัญหาที่ซ่อนอยู่ อย่างไรก็ตาม ในปัญหาส่วนใหญ่ในโลกแห่งความเป็นจริง การเรียนรู้ออนไลน์เป็นสิ่งจำเป็นเนื่องจากปัญหาและชุดข้อมูลมีแนวโน้มที่จะเปลี่ยนแปลงอย่างต่อเนื่อง สิ่งนี้ทำให้เห็นความสำคัญของวิศวกรรมซอฟต์แวร์ในการเรียนรู้ของเครื่องจักรมากขึ้น เนื่องจากระบบออนไลน์ส่วนใหญ่ขึ้นอยู่กับประสิทธิภาพในการจัดเก็บและเรียกค้นข้อมูล และเพียงสร้างระบบโดยรวมที่เพียงพอ สิ่งนี้ต้องอาศัยความรู้ที่กว้างขวางในการสร้าง API ฐานข้อมูลคุณภาพสูง และไปป์ไลน์

ความคิดสุดท้าย

นี่เป็นกระดาษที่ค่อนข้างขัดแย้ง ฉันคิดว่าฉันไม่เห็นด้วยกับสมมติฐานที่ซ่อนอยู่ แต่ฉันพบว่ามันค่อนข้างกระตุ้นความคิด และนั่นคือสาเหตุที่ฉันคิดว่าการเขียนบทความเกี่ยวกับเรื่องนี้จะมีประโยชน์ คำตอบสำหรับคำถามที่เกิดขึ้นที่นี่ค่อนข้างสำคัญและส่งเสริมการสนทนาที่ดี

หากคุณต้องการรับบทวิจารณ์บทความเกี่ยวกับเอกสารล่าสุดในด้าน AI และการเรียนรู้ของเครื่องเป็นประจำ ให้เพิ่มอีเมลของคุณที่นี่ & สมัครสมาชิก!

https://artisanal-motivator-8249.ck.page/5524b8f934

ข้อมูลอ้างอิง:

[1] รางวัลคือกระดาษเพียงพอ