[เกือบ] ทุกสิ่งที่คุณต้องรู้ในปี 2019

การกลั่นกรองความรู้เป็นเทคนิคการบีบอัดแบบจำลองโดยเครือข่ายขนาดเล็ก (นักเรียน) ได้รับการสอนโดยโครงข่ายประสาทเทียมขนาดใหญ่ (ครู) เครือข่ายขนาดเล็กได้รับการฝึกฝนให้ทำงานเหมือนกับโครงข่ายประสาทเทียมขนาดใหญ่ ซึ่งช่วยให้สามารถติดตั้งโมเดลดังกล่าวบนอุปกรณ์ขนาดเล็ก เช่น โทรศัพท์มือถือหรืออุปกรณ์ Edge อื่นๆ ได้ ในคู่มือนี้ เราจะดูเอกสาร 2-3 ฉบับที่พยายามจะรับมือกับความท้าทายนี้

การกลั่นกรองความรู้ในโครงข่ายประสาทเทียม (NIPS, 2014)

ในบทความนี้ แบบจำลองขนาดเล็กได้รับการฝึกอบรมให้สรุปในลักษณะเดียวกับแบบจำลองครูใหญ่ การถ่ายโอนลักษณะทั่วไปทำได้โดยใช้ความน่าจะเป็นของคลาสของโมเดลขนาดใหญ่เป็นเป้าหมายในขณะที่ฝึกโมเดลขนาดเล็ก ถ้าแบบจำลองขนาดใหญ่เป็นกลุ่มของแบบจำลองที่เรียบง่ายกว่า ค่าเฉลี่ยเรขาคณิตหรือเลขคณิตของการแจกแจงแบบทำนายจะถูกนำมาใช้เป็นเป้าหมาย



ในการทดสอบการกลั่น ผู้เขียนได้ฝึกโครงข่ายประสาทเทียมขนาดใหญ่เพียงตัวเดียวที่มีเลเยอร์ที่ซ่อนอยู่จำนวน 1,200 หน่วยที่ซ่อนอยู่ในเคสการฝึกอบรม 60,000 เคส เครือข่ายได้รับการปรับปรุงให้เป็นมาตรฐานโดยใช้การออกกลางคันและข้อจำกัดด้านน้ำหนัก ภาพอินพุตกระวนกระวายใจสองพิกเซลในทุกทิศทาง เครือข่ายนี้มีข้อผิดพลาดในการทดสอบ 67 รายการ เครือข่ายขนาดเล็กที่มีเลเยอร์ซ่อนอยู่สองชั้นซึ่งมีหน่วยเชิงเส้นที่ถูกแก้ไข 800 หน่วยและไม่มีการปรับให้เป็นมาตรฐานมีข้อผิดพลาด 146 รายการ เมื่อเครือข่ายขนาดเล็กถูกทำให้เป็นมาตรฐานโดยการจับคู่เป้าหมายอ่อนกับเครือข่ายขนาดใหญ่ เครือข่ายดังกล่าวได้รับข้อผิดพลาดในการทดสอบ 74 ครั้ง

ผลลัพธ์ต่อไปนี้ได้มาเมื่อใช้เทคนิคในการรู้จำเสียง

ไม่ต้องกังวลว่าจะพลาดข่าวสาร ML ล่าสุด สมัครสมาชิกและให้เราค้นหาและแบ่งปันกับคุณและคนอื่นๆ อีก 14,000 คนทุกสัปดาห์

การกลั่นแบบเป็นตัวแทนที่ตรงกันข้าม (2019)

บทความนี้ใช้ประโยชน์จากกลุ่มวัตถุประสงค์เชิงเปรียบเทียบเพื่อจับความสัมพันธ์และการพึ่งพาเอาต์พุตที่มีลำดับสูงกว่า บทความนี้ได้รับการดัดแปลงเพื่อจุดประสงค์ในการกลั่นกรองความรู้จากโครงข่ายประสาทเทียมหนึ่งไปยังอีกเครือข่ายหนึ่ง



ดังที่แสดงด้านล่าง บทความนี้จะพิจารณาขั้นตอนการกลั่นสามขั้นตอน:

  • การบีบอัดโมเดล
  • การถ่ายโอนความรู้จากรูปแบบหนึ่ง (เช่น RGB) ไปยังอีกรูปแบบหนึ่ง (เช่น ความลึก)
  • กลั่นกรองเครือข่ายให้เป็นเครือข่ายเดียว

แนวคิดหลักในการเรียนรู้แบบเปรียบเทียบคือการเรียนรู้การเป็นตัวแทนที่อยู่ใกล้กับพื้นที่เมตริกสำหรับคู่ที่เป็นบวก ขณะเดียวกันก็ผลักการเป็นตัวแทนระหว่างคู่เชิงลบออกไป

กรอบงานการกลั่นแบบคอนทราสต์แทน (CRD) ได้รับการทดสอบบน:

  • การบีบอัดรูปแบบเครือข่ายขนาดใหญ่ให้เป็นเครือข่ายขนาดเล็กลง
  • การถ่ายโอนความรู้ข้ามรูปแบบ
  • รวบรวมการกลั่นกรองจากกลุ่มครูสู่เครือข่ายนักเรียนกลุ่มเดียว

เทคนิคนี้ได้รับการทดสอบบน CIFAR-100, ImageNet, STL-10, TinyImageNet และ NYU-Depth V2 ผลลัพธ์บางส่วนที่ได้รับแสดงไว้ด้านล่าง

นักเรียนที่หลากหลาย: การเรียนรู้เครือข่ายที่กะทัดรัดและกระจัดกระจายในกรอบการกลั่นความรู้ (2019)

แนวทางที่เสนอในบทความนี้เรียกว่า Variational Student โดยผสมผสานความสามารถในการบีบอัดของกรอบงานการกลั่นความรู้และความสามารถในการเหนี่ยวนำความกระจัดกระจายของเทคนิคการอนุมานแบบแปรผัน (VI) ผู้เขียนสร้างเครือข่ายนักศึกษากระจัดกระจาย ความกระจัดกระจายของเครือข่ายนี้เกิดจากพารามิเตอร์การเปลี่ยนแปลงที่พบผ่านการปรับฟังก์ชันการสูญเสียให้เหมาะสมตาม VI ซึ่งทำได้โดยการใช้ประโยชน์จากความรู้ที่ได้รับจากเครือข่ายครู



บทความนี้พิจารณาโครงข่ายประสาทเทียมแบบเบย์ (BNN) ในกรอบงานวานิลลา KD โดยที่นักเรียนใช้ฟังก์ชันวัตถุประสงค์กำลังสองน้อยที่สุดที่ถูกลงโทษแบบผันแปร สิ่งนี้ทำให้มั่นใจได้ว่าเครือข่ายนักเรียนจะมีขนาดกะทัดรัดเมื่อเทียบกับเครือข่ายครูโดยอาศัย KD ช่วยให้สามารถบูรณาการเทคนิคแบบกระจัดกระจาย เช่น แบบกระจายแบบกระจายแบบกระจาย (SVD) และแบบแบบแบบเบย์แบบแปรผัน (VBD) สิ่งนี้นำไปสู่ความสำเร็จของนักเรียนกระจัดกระจาย

ผลลัพธ์บางส่วนที่ได้รับด้วยวิธีนี้แสดงไว้ด้านล่าง

ปรับปรุงการกลั่นกรองความรู้ผ่านผู้ช่วยครู: เชื่อมช่องว่างระหว่างนักเรียนกับครู (2019)

บทความนี้แสดงให้เห็นว่าประสิทธิภาพของเครือข่ายนักเรียนจะลดลงเมื่อช่องว่างระหว่างครูและนักเรียนมีขนาดใหญ่ บทความนี้แนะนำผู้ช่วยครู ซึ่งเป็นการกลั่นกรองความรู้หลายขั้นตอน ซึ่งเชื่อมช่องว่างระหว่างนักเรียนและครู วิธีการนี้ได้รับการทดสอบบนชุดข้อมูล CIFAR-10 และ CIFAR-100



บทความนี้จะแนะนำการกลั่นความรู้ผู้ช่วยครู (TAKD) พร้อมด้วยโมเดลระดับกลางที่เรียกว่าผู้ช่วยครู (TAs) แบบจำลอง TA ได้รับการกลั่นจากอาจารย์ และนักเรียนจะถูกกลั่นจาก TA เท่านั้น

รูปที่ 2 ด้านล่างแสดงประสิทธิภาพการกลั่นเมื่อขนาดครูเพิ่มขึ้น รูปที่ 3 แสดงให้เห็นว่าการลดขนาดนักเรียนจะทำให้ประสิทธิภาพของนักเรียนเพิ่มขึ้น

วิธีการนี้ได้รับการประเมินโดยใช้สถาปัตยกรรม CNN และ ResNet ธรรมดา ต่อไปนี้คือความแม่นยำบางส่วนที่ได้รับจากขนาด TA ที่แตกต่างกัน:

เรื่อง ประสิทธิภาพการกลั่นกรองความรู้ (ICCV 2019)

บทความนี้เกี่ยวข้องอย่างมากกับความสามารถของเทคนิคการกลั่นกรองความรู้เพื่อสรุปอย่างมีประสิทธิผลในการฝึกอบรมเครือข่ายนักศึกษา จากการค้นพบของผู้เขียน ความแม่นยำที่สูงขึ้นในเครือข่ายครูไม่ได้หมายความว่าจะมีความแม่นยำสูงสำหรับเครือข่ายนักเรียนเสมอไป สถาปัตยกรรมเครือข่ายที่ใช้ในบทความนี้ ได้แก่ ResNet, WideResNet และ DenseNet



รูปด้านล่างแสดงโครงเรื่องข้อผิดพลาดของเครือข่ายนักเรียนที่กลั่นกรองจากครูหลายๆ คนใน CIFAR10

การทดลองยังดำเนินการบน ImageNet โดย ResNet18 เป็นนักเรียน และ ResNet18, ResNet34, ResNet50 และ ResNet152 เป็นครู การทดลองพิสูจน์ให้เห็นว่าโมเดลที่ใหญ่กว่าไม่ใช่ครูที่ดีกว่า

รูปด้านล่างแสดงให้เห็นว่าเหตุผลที่โมเดลที่ใหญ่กว่าไม่ใช่ครูที่ดีกว่าก็คือเครือข่ายนักเรียนไม่สามารถเลียนแบบครูขนาดใหญ่ได้

วิธีแก้ปัญหาที่เสนอในบทความนี้คือการหยุดการฝึกอบรมครูตั้งแต่เนิ่นๆ เพื่อให้ได้วิธีแก้ปัญหาที่เหมาะกับนักเรียนมากขึ้น

การกลั่นเคอร์เนลแบบไดนามิกเพื่อการประมาณค่าท่าทางที่มีประสิทธิภาพในวิดีโอ (ICCV 2019)

การแปลข้อต่อของร่างกายเป็นภาษาท้องถิ่นใน "การประมาณท่าทางของมนุษย์" ใช้เครือข่ายขนาดใหญ่ในทุกเฟรมในวิดีโอ กระบวนการนี้มักมีค่าใช้จ่ายในการคำนวณสูง ผู้เขียนบทความนี้เสนอการกลั่นเคอร์เนลแบบไดนามิก (DKD) เพื่อจัดการกับความท้าทายนี้

DKD ขอแนะนำเครื่องกลั่นน้ำหนักเบาสำหรับแกนการกลั่นแบบออนไลน์ผ่านการขยายสัญญาณชั่วคราวจากเฟรมก่อนหน้าในลักษณะป้อนไปข้างหน้าแบบช็อตเดียว DKD ช่วยลดความยุ่งยากในการแปลข้อต่อของร่างกายให้เป็นขั้นตอนการจับคู่ระหว่างเคอร์เนลท่าทางและเฟรมปัจจุบัน DKD ถ่ายทอดความรู้จากกรอบเดียวเพื่อเป็นแนวทางในการแปลข้อต่อของร่างกายในกรอบต่อไปนี้ ซึ่งช่วยให้สามารถใช้เครือข่ายขนาดเล็กในการประมาณท่าทางแบบวิดีโอได้



กระบวนการฝึกอบรมดำเนินการโดยใช้ประโยชน์จากกลยุทธ์การฝึกอบรมที่เป็นปฏิปักษ์ชั่วคราว กลยุทธ์นี้แนะนำการเลือกปฏิบัติชั่วคราวเพื่อสร้างเคอร์เนลท่าทางที่สอดคล้องกันชั่วคราวและก่อให้เกิดผลการประมาณค่าในระยะยาว วิธีการนี้ได้รับการทดสอบบนการวัดประสิทธิภาพ Penn Action และ Sub-JHMDB

สถาปัตยกรรมของแนวทางนี้แสดงไว้ด้านล่าง มันประกอบด้วยเครื่องมือเริ่มต้นท่าทาง ตัวเข้ารหัสเฟรม เครื่องกลั่นเคอร์เนลท่าทาง และผู้แยกแยะความขัดแย้งชั่วคราว DKD ใช้ตัวเริ่มต้นท่าทางเพื่อประมาณค่าแผนที่ความเชื่อมั่น ตัวเข้ารหัสเฟรมมีหน้าที่แยกคุณสมบัติระดับสูงเพื่อให้ตรงกับเคอร์เนลโพสจากเครื่องกลั่นเคอร์เนลโพส เครื่องกลั่นเคอร์เนลแบบโพสท่าจะใช้ข้อมูลชั่วคราวเป็นอินพุต และกลั่นเคอร์เนลโพสในลักษณะฟีดไปข้างหน้าแบบช็อตเดียว และเครื่องแยกแยะความขัดแย้งชั่วคราวถูกใช้เพื่อปรับปรุงกระบวนการเรียนรู้ของเครื่องกลั่นเคอร์เนลแบบโพสท่า โดยมีแผนที่รูปแบบต่างๆ ความมั่นใจเป็นการกำกับดูแลชั่วคราวเสริม

ผลลัพธ์บางส่วนที่ได้รับจากชุดข้อมูล Penn Action แสดงอยู่ด้านล่าง:

นี่คือการเปรียบเทียบผลลัพธ์ที่ได้รับจากชุดข้อมูล Penn Action และ Sub-JHMDB

DitilBERT เวอร์ชันกลั่นของ BERT: เล็กกว่า เร็วกว่า ราคาถูกกว่า และเบากว่า (NeurIPS 2019)

บทความนี้เสนอวิธีในการฝึกอบรมแบบจำลองการแทนภาษาเพื่อวัตถุประสงค์ทั่วไปที่มีขนาดเล็กกว่า ซึ่งเรียกว่า DistilBERT ซึ่งเป็นเวอร์ชันกลั่นของ BERT สถาปัตยกรรมของ DitilBERT คล้ายคลึงกับสถาปัตยกรรมของ BERT



ประสิทธิภาพของแนวทางนี้เมื่อเปรียบเทียบกับ BERT แสดงไว้ด้านล่าง

DitilBERT ถูกกลั่นในปริมาณมากโดยใช้ประโยชน์จากการสะสมแบบไล่ระดับ โดยใช้การมาสก์แบบไดนามิก และไม่มีวัตถุประสงค์ในการคาดเดาประโยคถัดไป ได้รับการฝึกฝนเกี่ยวกับคลังข้อมูลดั้งเดิมของโมเดล BERT และได้รับการประเมินตามเกณฑ์มาตรฐานการประเมินความเข้าใจภาษาทั่วไป (GLUE) DitilBERT รักษาประสิทธิภาพของ BERT ไว้ 97% และเร็วขึ้น 60%

บทสรุป

ตอนนี้เราควรตามทันวิธีการกลั่นแบบจำลองบางอย่างที่ใช้บ่อยที่สุดและล่าสุดสองสามวิธี

เอกสาร/บทคัดย่อที่กล่าวถึงและลิงก์ไปยังด้านบนยังมีลิงก์ไปยังการนำโค้ดไปใช้ด้วย เรายินดีที่จะเห็นผลลัพธ์ที่คุณได้รับหลังจากการทดสอบ



หมายเหตุสำหรับบรรณาธิการ: Heartbeat เป็นสิ่งพิมพ์ออนไลน์และชุมชนที่ขับเคลื่อนโดยผู้ร่วมให้ข้อมูล ซึ่งอุทิศตนเพื่อจัดหาทรัพยากรทางการศึกษาชั้นนำสำหรับวิทยาการข้อมูล การเรียนรู้ของเครื่อง และผู้ปฏิบัติงานด้านการเรียนรู้เชิงลึก เรามุ่งมั่นที่จะสนับสนุนและสร้างแรงบันดาลใจให้กับนักพัฒนาและวิศวกรจากทุกสาขาอาชีพ

Heartbeat เป็นอิสระด้านบรรณาธิการ สนับสนุนและเผยแพร่โดย Comet ซึ่งเป็นแพลตฟอร์ม MLOps ที่ช่วยให้นักวิทยาศาสตร์ข้อมูลและทีม ML สามารถติดตาม เปรียบเทียบ อธิบาย และเพิ่มประสิทธิภาพการทดลองของพวกเขา เราจ่ายเงินให้กับผู้ร่วมให้ข้อมูล และเราไม่ขายโฆษณา

หากคุณต้องการมีส่วนร่วม ตรงไปที่ เรียกผู้ร่วมให้ข้อมูล ของเรา คุณยังสามารถลงทะเบียนเพื่อรับจดหมายข่าวรายสัปดาห์ของเรา ("Deep Learning Weekly" และ "Comet Newsletter") เข้าร่วมกับเราที่ « ""Slack" และติดตาม Comet บน "Twitter" และ "LinkedIn" เพื่อดูแหล่งข้อมูล กิจกรรม และ อีกมากมายที่จะช่วยให้คุณสร้างโมเดล ML ที่ดีขึ้น เร็วขึ้น