สิ่งตีพิมพ์ในหัวข้อ 'knowledge-distillation'


CODIR: ฝึกโมเดล NLP ที่เล็กลงและเร็วขึ้น
แนวทางเฉพาะในการกลั่นกรองความรู้ ขอบเขตของการประมวลผลภาษาธรรมชาติได้รับการปฏิวัติด้วยการกำเนิดของแบบจำลองขนาดใหญ่ที่ได้รับการฝึกฝนมาก่อน เช่น BERT และ GPT-3 โมเดลเหล่านี้สามารถรวบรวมข้อมูลจำนวนมหาศาลจากข้อความจำนวนมหาศาลที่พวกเขาได้รับการฝึกอบรม และใช้ข้อมูลนี้เพื่อเข้าถึงประสิทธิภาพอันล้ำสมัย และปรับปรุงงานที่หลากหลายอย่างต่อเนื่อง เช่น การจัดหมวดหมู่ การสรุป และการมีส่วนร่วม เหตุผลหนึ่งที่ทำให้รุ่นเหล่านี้มีประสิทธิภาพที่ยอดเยี่ยมคือขนาดของมัน BERT-base มีพารามิเตอร์ 110..