โมเดลภาษาขนาดใหญ่เรียนรู้จากข้อมูลได้อย่างไร

“หนังสือเป็นเวทมนตร์แบบพกพาที่ไม่เหมือนใคร” — อ้างอิงจากสตีเฟน คิง นักเขียนที่มีผลงานมากมาย ลองจินตนาการดูว่าคุณสามารถกลั่นกรองแก่นแท้ของหนังสือทุกเล่มที่เคยเขียนลงในสมองดิจิทัลได้หรือไม่ คุณสามารถถามคำถาม แล้วมันจะสร้างคำตอบ ให้ข้อมูลเชิงลึก วิธีแก้ปัญหา หรือแค่ล้อเล่นอย่างมีไหวพริบ ฟังดูเหมือนนิยายวิทยาศาสตร์ใช่ไหม? แต่นี่คือสิ่งที่ Large Language Models (LLM) มุ่งหวังที่จะบรรลุผล

เปิดเผยความมหัศจรรย์ของคำพูด

หัวใจของพวกเขา LLM เช่น GPT-4 หรือ BERT เป็นระบบการจดจำรูปแบบ พวกเขาเรียนรู้รูปแบบจากคลังข้อมูลข้อความจำนวนมหาศาล จากนั้นใช้รูปแบบเหล่านี้เพื่อคาดเดาหรือสร้างข้อความใหม่ แต่อย่าจำกัดตัวเองให้อยู่ในขอบเขตของถ้อยแถลงอันยิ่งใหญ่ มาเจาะลึกกัน โดยแยกส่วนต่างๆ ของสมองดิจิทัลเหล่านี้ออกจากกันเพื่อทำความเข้าใจว่าพวกเขาเรียนรู้อย่างไร

การให้อาหารหนังสือ: กระบวนการฝึกอบรม

LLM เรียนรู้จากข้อความในกระบวนการที่คล้ายคลึงกับวิธีที่เด็กเรียนรู้ภาษา แต่ในระดับที่รวดเร็วเป็นพิเศษ เด็กเรียนรู้โดยการซึมซับข้อมูลจากสิ่งรอบตัว โดยเฉพาะจากการสนทนาและการอ่าน ในทางกลับกัน LLM เรียนรู้จากกระบวนการฝึกอบรมที่เรียกว่าการเรียนรู้แบบมีผู้สอน

การเรียนรู้แบบมีผู้สอนเกี่ยวข้องกับชุดข้อมูล ซึ่งเป็นชุดข้อมูลข้อความจำนวนมากในกรณีของ LLM ชุดข้อมูลนี้แบ่งออกเป็นคู่ของอินพุตและเอาต์พุตที่คาดหวัง LLM ประมวลผลอินพุต ทำการทำนาย จากนั้นปรับพารามิเตอร์ภายในโดยพิจารณาจากการคาดการณ์ที่ตรงกับเอาต์พุตที่คาดหวัง วงจรนี้เกิดขึ้นซ้ำหลายล้านครั้งหรือหลายพันล้านครั้ง

ในกรณีของ GPT-4 โมเดลดังกล่าวได้รับการฝึกเกี่ยวกับข้อความทางอินเทอร์เน็ตที่หลากหลาย แต่ไม่ต้องกังวล มันไม่ได้เรียนรู้ที่จะพิมพ์มีมแมวหรือเชี่ยวชาญศิลปะของคลิกเบต (แม้ว่าฟีเจอร์สำหรับ GPT-5 จะเป็นที่น่าขบขัน แต่ก็ไม่น่ากลัว) นักพัฒนาใช้ความระมัดระวังอย่างยิ่งในการหลีกเลี่ยงข้อผิดพลาดดังกล่าว โดยดูแลชุดข้อมูลอย่างพิถีพิถันเพื่อให้แน่ใจว่ามีการนำเสนอภาษามนุษย์ในวงกว้างและสมดุล

บิตที่สำคัญ: การเรียนรู้การเป็นตัวแทน

สิ่งที่ทำให้ LLM มีความพิเศษคือวิธีการเรียนรู้ที่จะนำเสนอภาษาภายใน ใช้สิ่งที่เรียกว่า "การฝัง" เพื่อแสดงคำต่างๆ เหล่านี้เป็นเวกเตอร์มิติสูง (คิดว่าบาร์โค้ดหลายมิติ) ซึ่งเรียนรู้ตำแหน่งของแต่ละคำในระหว่างกระบวนการฝึกอบรม

การฝังเหล่านี้จะจับ "ความหมาย" ของคำในตำแหน่งที่สัมพันธ์กับคำอื่นๆ ตัวอย่างเช่น ในโลกของการฝัง คำอย่าง "ราชา" และ "ราชินี" น่าจะอยู่ใกล้กันมากกว่า "ราชา" และ "แอปเปิ้ล" เนื่องจากความสัมพันธ์ทางความหมาย

LLM เช่น GPT-4 ประกอบด้วยหลายเลเยอร์ (ถ้าให้แม่นยำ 175 พันล้านพารามิเตอร์สำหรับ GPT-4) โดยแต่ละเลเยอร์จะเรียนรู้การนำเสนอภาษาที่เป็นนามธรรมมากขึ้น ดังนั้น ชั้นล่างอาจเรียนรู้เกี่ยวกับคำศัพท์แต่ละคำและไวยากรณ์พื้นฐาน ในขณะที่ชั้นล่างจะเรียนรู้ที่จะเข้าใจโครงสร้างประโยคที่ซับซ้อน คำอุปมาอุปมัย และแม้แต่การใช้เหตุผลบางรูปแบบ

จากความเข้าใจสู่รุ่น: ตัวถอดรหัส

หลังจากเรียนรู้การนำเสนอเหล่านี้แล้ว ขั้นตอนต่อไปคือการสร้างข้อความใหม่และนี่คือจุดที่ตัวถอดรหัสเข้ามา มันเหมือนกับพ่อมดที่รับซุปภาษามหัศจรรย์ที่แบบจำลองได้เรียนรู้และเสกสรรประโยคที่สอดคล้องกันและเหมาะสมกับบริบท

ตัวถอดรหัสจะได้รับอินพุต (เช่น คำถามหรือข้อความแจ้ง) และใช้การฝังที่เรียนรู้เพื่อสร้างข้อความทีละคำ โดยจะใช้กลไกที่เรียกว่า "ความสนใจ" เพื่อดูว่าส่วนใดของข้อมูลที่ป้อนเข้ามามีความเกี่ยวข้องมากที่สุดในการสร้างคำถัดไป และดำเนินต่อไปจนกว่าจะมีประโยคที่สมบูรณ์ ย่อหน้า หรือแม้แต่บทความเต็ม

ขีดจำกัดของการเรียนรู้

ถึงแม้ LLM จะดูฉลาด แต่ก็ยังห่างไกลจากการเข้าใจภาษาอย่างแท้จริง

วิธีที่มนุษย์ทำ พวกเขาไม่สามารถเข้าใจความแตกต่างเล็กๆ น้อยๆ ของบริบททางสังคมได้จริงๆ และไม่สามารถสร้างเนื้อหาเชิงลึกนอกเหนือจากข้อมูลที่มีอยู่ในข้อมูลการฝึกอบรมได้อย่างน่าเชื่อถือ คุณสามารถพูดได้ว่าพวกมันเป็นเหมือนนกแก้ว เลียนแบบรูปแบบที่พวกเขาเห็นโดยไม่เข้าใจอย่างลึกซึ้ง

การเดินทางข้างหน้า

เช่นเดียวกับที่เด็กไม่หยุดเรียนภาษาหลังจากเชี่ยวชาญพื้นฐานแล้ว การเดินทางของ LLM ยังห่างไกลจากจุดสิ้นสุดฉันใด ขณะที่เราพัฒนาโมเดลเหล่านี้ต่อไป โมเดลเหล่านี้จะเข้าใจและสร้างข้อความได้ดีขึ้น และใครจะรู้? บางทีสักวันหนึ่ง เราจะมีสมองดิจิทัลที่ไม่เพียงแค่เลียนแบบภาษาของมนุษย์เท่านั้น แต่ยังเข้าใจอย่างแท้จริงและสร้างมันขึ้นมาด้วยวิธีที่แปลกใหม่และสร้างสรรค์

จนกว่าจะถึงตอนนั้น เราจะยังคงประหลาดใจกับนกแก้วดิจิทัลต่อไป ในขณะที่พวกมันเลียนแบบ เรียนรู้ และปรับปรุงทีละคำ