แนวทางเฉพาะในการกลั่นกรองความรู้

ขอบเขตของการประมวลผลภาษาธรรมชาติได้รับการปฏิวัติด้วยการกำเนิดของแบบจำลองขนาดใหญ่ที่ได้รับการฝึกฝนมาก่อน เช่น BERT และ GPT-3 โมเดลเหล่านี้สามารถรวบรวมข้อมูลจำนวนมหาศาลจากข้อความจำนวนมหาศาลที่พวกเขาได้รับการฝึกอบรม และใช้ข้อมูลนี้เพื่อเข้าถึงประสิทธิภาพอันล้ำสมัย และปรับปรุงงานที่หลากหลายอย่างต่อเนื่อง เช่น การจัดหมวดหมู่ การสรุป และการมีส่วนร่วม

เหตุผลหนึ่งที่ทำให้รุ่นเหล่านี้มีประสิทธิภาพที่ยอดเยี่ยมคือขนาดของมัน BERT-base มีพารามิเตอร์ 110 ล้านพารามิเตอร์ BERT-ขนาดใหญ่มีพารามิเตอร์ 340 ล้านพารามิเตอร์ GPT-2 ที่มีพารามิเตอร์ 1.5 พันล้านพารามิเตอร์ และ GPT-3 มีพารามิเตอร์ 175 พันล้าน มหาศาล เมื่อโมเดลเหล่านี้มีขนาดใหญ่ขึ้น เวลาและทรัพยากรที่จำเป็นในการฝึกล่วงหน้าก็จะเพิ่มขึ้นตามไปด้วย เพื่อให้โมเดลเหล่านี้มีค่าใช้จ่ายและทรัพยากรอย่างมีประสิทธิภาพ การวิจัยที่มุ่งเน้นไปที่การลดขนาดโมเดลจึงกำลังขยายตัวอย่างรวดเร็ว มีการนำเทคนิคหลายประการมาใช้เพื่อดำเนินการนี้:

  • การจัดปริมาณ มุ่งเน้นไปที่การลดขนาดของน้ำหนักโมเดล (จากตัวเลข 32 บิตเป็นตัวเลข 16 หรือ 8 บิต)
  • การตัดแต่งกิ่ง ระบุน้ำหนักที่ซ้ำซ้อนและพยายามทิ้งน้ำหนักเหล่านั้น
  • การกลั่นกรองความรู้ มุ่งเน้นไปที่การสร้างแบบจำลองที่มีขนาดเล็กลงโดยพยายามจับคู่แบบจำลองที่ใหญ่กว่า (ครู) กับแบบจำลองที่เล็กกว่า (นักเรียน) โมเดลอย่าง DistilBERT และ MobileBERT ได้ขยายแนวคิดนี้เพื่อสร้างโมเดลที่ผ่านการฝึกอบรมขนาดเล็กโดยใช้ครูของ BERT

โดยทั่วไปการกลั่นกรองความรู้ประกอบด้วย 2 ส่วน คือ

  1. วัตถุประสงค์การฝึกอบรมเดิม: วัตถุประสงค์นี้มุ่งเน้นไปที่การทำให้โมเดลนักเรียนเรียนรู้ป้ายกำกับที่ถูกต้อง (ระหว่างการปรับแต่ง) หรือวัตถุประสงค์ของการฝึกอบรมล่วงหน้าที่ถูกต้อง
  2. วัตถุประสงค์ของการกลั่น: วัตถุประสงค์นี้พยายามจับคู่ความน่าจะเป็นของผลลัพธ์ (และอาจเป็นสถานะที่ซ่อนอยู่) ของนักเรียนกับของครู ซึ่งทำได้โดยการเลือกการวัดระยะทางและลดระยะห่างระหว่างนักเรียนกับครู

นักวิจัยจาก Microsoft Dynamics 365 AI Research พยายามแก้ไขปัญหาการกลั่นผ่านมุมมองอื่น แทนที่จะพยายามลดระยะห่างสำหรับตัวอย่างทั้งหมดระหว่างครูกับนักเรียน ทำไมไม่ลองเพิ่มระยะห่างระหว่างตัวอย่างที่เป็นเท็จให้มากที่สุดและลดระยะห่างระหว่างตัวอย่างที่แท้จริงให้เหลือน้อยที่สุด สิ่งนี้ทำให้พวกเขาเสนอ CODIR ซึ่งเป็นเทคนิคที่ใช้การเรียนรู้แบบเปรียบเทียบเพื่อกลั่นกรองสถานะที่ซ่อนอยู่ของครูให้กับนักเรียน CODIR สามารถใช้ได้กับทั้งขั้นตอนการเตรียมการฝึกและการปรับแต่งอย่างละเอียด

ต่างจากเทคนิคการกลั่นความรู้แบบดั้งเดิม CODIR มี 3 องค์ประกอบ:

  1. วัตถุประสงค์การฝึกเดิม: สิ่งนี้เหมือนกับ KD ทั่วไป
  2. วัตถุประสงค์ของการกลั่น: ต่างจาก KD ทั่วไป วัตถุประสงค์นี้ใช้การสูญเสีย KL-divergence เพื่อสอนให้นักเรียนทำนายการแจกแจงความน่าจะเป็นที่คล้ายกันเช่นเดียวกับครู ใช้กับเอาต์พุตของโมเดลนักเรียนเท่านั้น
  3. วัตถุประสงค์การเรียนรู้แบบเปรียบเทียบ:วัตถุประสงค์นี้มุ่งเน้นไปที่การแยกสถานะที่ซ่อนอยู่ของนักเรียนออกจากสถานะของครูสำหรับตัวอย่างเชิงลบ และจับคู่สถานะเหล่านั้นกับตัวอย่างเชิงบวก

การใช้ CODIR กับขั้นตอนการปรับแต่งนั้นตรงไปตรงมามาก เนื่องจากตัวอย่างการฝึกอบรมมีป้ายกำกับ ตัวอย่างเชิงลบจึงเป็นเพียงตัวอย่างที่มีป้ายกำกับแตกต่างจากตัวอย่างเชิงบวก

ในขั้นเตรียมการฝึก ไม่มีป้ายกำกับ ดังนั้นการใช้วัตถุประสงค์การเรียนรู้ที่ตรงกันข้ามจึงเป็นเรื่องที่ท้าทายมากขึ้นเล็กน้อย นักวิจัยทดสอบ CODIR ในแบบจำลอง RoBERTa ซึ่งใช้การสร้างแบบจำลองภาษาที่สวมหน้ากากเป็นวัตถุประสงค์ในการฝึกอบรมล่วงหน้า ในกรณีนี้ ตัวอย่างเชิงลบจะถูกปกปิดประโยคหรือข้อความจากบทความเดียวกัน เพื่อให้มีความหมายคล้ายคลึงกับตัวอย่างเชิงบวก ด้วยวิธีนี้ วัตถุประสงค์การเรียนรู้เชิงเปรียบเทียบจะไม่ง่ายเกินไปที่จะแก้ไข

นักวิจัยใช้ CODIR เพื่อลดแบบจำลอง Roberta เหลือ 6 เลเยอร์ และตรวจสอบประสิทธิภาพบนชุดข้อมูล GLUE โมเดลนี้มีความแม่นยำเกือบเท่ากันกับโมเดล BERT ดั้งเดิมโดย ใช้เวลาอนุมานเพียงครึ่งเดียว

นี่คือ "ลิงก์" ไปยังรายงาน หากคุณต้องการเรียนรู้เพิ่มเติมเกี่ยวกับ CODIR "ลิงก์" ไปยังโค้ดเพื่อให้คุณกลั่นกรองแบบจำลองของคุณเอง และคลิก "ที่นี่" เพื่อดูสิ่งพิมพ์และงานอื่นๆ ของเราเพิ่มเติม

ข้อมูลอ้างอิง

  1. วิคเตอร์ แซนห์, เปิดตัวลีซานเดร, จูเลียน ชอมงด์ และโธมัส วูล์ฟ 2019. Ditilbert ซึ่งเป็นเวอร์ชันกลั่นของเบิร์ต: เล็กกว่า เร็วกว่า ถูกกว่า และเบากว่า arXiv พิมพ์ล่วงหน้า arXiv:1910.01108.
  2. จือชิง ซุน, หงคุน หยู, ซ่งเซียวตัน, เหรินเจี๋ย หลิว, ยี่หมิง หยาง และ เดนนี่ โจว 2020. Mobilebert: bert แบบไม่เชื่อเรื่องงานขนาดกะทัดรัดสำหรับอุปกรณ์ที่มีทรัพยากรจำกัด arXiv พิมพ์ล่วงหน้า arXiv:2004.02984
  3. ซีฉีซุน, เจ้อกาน, หยูเฉิง, หยูเว่ยฝาง, ซั่วหัง หวาง และหลิวจิงจิง “การกลั่นแบบตรงกันข้ามในการนำเสนอระดับกลางสำหรับการบีบอัดโมเดลภาษา” arXiv preprint arXiv:2009.14167 (2020)