[Hampir] Semua yang perlu Anda ketahui di tahun 2019

Penyulingan pengetahuan adalah teknik kompresi model dimana jaringan kecil (siswa) diajarkan oleh jaringan saraf terlatih yang lebih besar (guru). Jaringan yang lebih kecil dilatih untuk berperilaku seperti jaringan saraf yang besar. Hal ini memungkinkan penerapan model tersebut pada perangkat kecil seperti ponsel atau perangkat edge lainnya. Dalam panduan ini, kita akan melihat beberapa makalah yang mencoba mengatasi tantangan ini.

Menyaring Pengetahuan dalam Jaringan Syaraf Tiruan (NIPS, 2014)

Dalam makalah ini, model kecil dilatih untuk melakukan generalisasi dengan cara yang sama seperti model guru yang lebih besar. Mentransfer generalisasi dilakukan dengan menggunakan probabilitas kelas dari model besar sebagai target sambil melatih model yang lebih kecil. Jika model besar merupakan kumpulan model yang lebih sederhana, rata-rata geometrik atau aritmatika dari distribusi prediktifnya digunakan sebagai target.



Dalam pengujian distilasi, penulis melatih satu jaringan saraf besar dengan dua lapisan tersembunyi yang terdiri dari 1.200 unit linier tersembunyi pada 60.000 kasus pelatihan. Jaringan diatur menggunakan batasan putus sekolah dan beban. Gambar masukan di-jitter sebanyak dua piksel ke segala arah. Jaringan ini memiliki 67 kesalahan pengujian. Jaringan yang lebih kecil dengan dua lapisan tersembunyi yang terdiri dari 800 unit linier yang diperbaiki dan tanpa regularisasi memiliki 146 kesalahan. Ketika jaringan yang lebih kecil diatur dengan mencocokkan target lunak dengan jaringan yang besar, diperoleh 74 kesalahan pengujian.

Hasil berikut diperoleh ketika teknik ini digunakan pada pengenalan suara.

Jangan khawatir ketinggalan berita ML terbaru. Berlangganan dan biarkan kami menemukannya dan membaginya dengan Anda dan 14.000 orang lainnya setiap minggu.

Distilasi Representasi Kontrasif (2019)

Makalah ini memanfaatkan rangkaian tujuan kontrastif untuk menangkap korelasi dan ketergantungan keluaran tingkat tinggi. Mereka diadaptasi dalam makalah ini untuk tujuan penyulingan pengetahuan dari satu jaringan saraf ke jaringan saraf lainnya.



Seperti yang ditunjukkan di bawah ini, makalah ini membahas tiga tahap distilasi:

  • kompresi model
  • mentransfer pengetahuan dari satu modalitas (misalnya RGB) ke modalitas lain (misalnya kedalaman)
  • menyaring ansambel jaringan menjadi satu jaringan

Ide utama dalam pembelajaran kontrastif adalah mempelajari representasi yang mendekati ruang metrik untuk pasangan positif sambil menjauhkan representasi di antara pasangan negatif.

Kerangka kerja distilasi representasi kontrastif (CRD) diuji pada:

  • model kompresi jaringan besar ke jaringan yang lebih kecil
  • transfer pengetahuan lintas modal
  • penyulingan ansambel dari sekelompok guru menjadi satu jaringan siswa

Teknik ini diuji pada CIFAR-100, ImageNet, STL-10, TinyImageNet, dan NYU-Depth V2. Beberapa hasil yang diperoleh ditunjukkan di bawah ini.

Siswa Variasi: Mempelajari Jaringan yang Ringkas dan Jarang dalam Kerangka Penyulingan Pengetahuan (2019)

Pendekatan yang diusulkan dalam makalah ini dikenal sebagai Variational Student. Ini menggabungkan kompresibilitas kerangka penyulingan pengetahuan dan kemampuan teknik inferensi variasional (VI) yang menginduksi ketersebaran. Penulis membangun jaringan siswa yang jarang. Ketersebaran jaringan ini disebabkan oleh parameter variasi yang ditemukan melalui optimalisasi fungsi kerugian berdasarkan VI. Hal ini dilakukan dengan memanfaatkan ilmu yang dipelajari dari jaringan guru.



Makalah ini membahas jaringan saraf Bayesian (BNN) dalam kerangka kerja vanilla KD, di mana siswa menggunakan fungsi tujuan kuadrat terkecil yang diberi sanksi variasional. Hal ini memastikan bahwa jaringan siswa lebih kompak dibandingkan dengan jaringan guru berdasarkan KD. Hal ini memungkinkan integrasi teknik ketersebaran, seperti dropout variasional jarang (SVD) dan dropout variasional Bayesian (VBD). Hal ini menyebabkan prestasi siswa jarang.

Beberapa hasil yang diperoleh dengan metode ini ditunjukkan di bawah ini.

Peningkatan Penyulingan Pengetahuan melalui Asisten Guru: Menjembatani Kesenjangan Antara Siswa dan Guru (2019)

Makalah ini menunjukkan bahwa kinerja jaringan siswa menurun ketika kesenjangan antara guru dan siswa semakin besar. Makalah ini memperkenalkan asisten guru — penyulingan pengetahuan multi-langkah — yang menjembatani kesenjangan antara siswa dan guru. Pendekatan ini diuji pada kumpulan data CIFAR-10 dan CIFAR-100.



Makalah ini memperkenalkan Penyulingan Pengetahuan Asisten Guru (TAKD), bersama dengan model perantara yang dikenal sebagai asisten guru (TA). Model TA disaring dari guru, dan siswa hanya disaring dari TA.

Gambar 2 di bawah menunjukkan kinerja distilasi seiring bertambahnya ukuran guru. Gambar 3 menunjukkan bahwa penurunan ukuran siswa akan meningkatkan kinerja siswa.

Pendekatan ini dievaluasi menggunakan arsitektur CNN dan ResNet biasa. Berikut beberapa akurasi yang diperoleh dengan ukuran TA yang berbeda:

Tentang Kemanjuran Penyulingan Pengetahuan (ICCV 2019)

Makalah ini terutama berkaitan dengan kemampuan teknik penyulingan pengetahuan untuk menggeneralisasi secara efektif dalam pelatihan jaringan siswa. Menurut temuan penulis, akurasi yang lebih tinggi pada jaringan guru tidak berarti akurasi yang tinggi pada jaringan siswa. Arsitektur jaringan yang digunakan dalam makalah ini adalah ResNet, WideResNet, dan DenseNet.



Gambar di bawah menunjukkan plot kesalahan jaringan siswa yang disaring dari guru yang berbeda di CIFAR10.

Eksperimen juga dilakukan di ImageNet, dengan ResNet18 sebagai siswa dan ResNet18, ResNet34, ResNet50, dan ResNet152 sebagai pengajar. Eksperimen membuktikan bahwa model yang lebih besar bukanlah guru yang lebih baik.

Gambar di bawah menunjukkan bahwa alasan model yang lebih besar bukanlah guru yang lebih baik adalah karena jaringan siswa tidak mampu meniru guru yang besar.

Solusi yang diusulkan dalam makalah ini adalah menghentikan pelatihan guru sejak dini untuk mendapatkan solusi yang lebih dapat diterima oleh siswa.

Distilasi Kernel Dinamis untuk Estimasi Pose yang Efisien dalam Video (ICCV 2019)

Lokalisasi sendi tubuh dalam “estimasi pose manusia” menerapkan jaringan besar pada setiap frame dalam sebuah video. Proses ini biasanya memerlukan biaya komputasi yang tinggi. Penulis makalah ini mengusulkan Distilasi Kernel Dinamis (DKD) untuk mengatasi tantangan ini.

DKD memperkenalkan distilator ringan ke kernel pose penyulingan online melalui pembesaran isyarat temporal dari bingkai sebelumnya dengan cara umpan maju satu kali. DKD menyederhanakan lokalisasi sendi tubuh menjadi prosedur pencocokan antara kernel pose dan frame saat ini. Transfer DKD memunculkan pengetahuan dari satu frame untuk memberikan panduan lokalisasi sendi tubuh pada frame berikut. Hal ini memungkinkan penggunaan jaringan kecil dalam estimasi pose berbasis video.



Proses pelatihan dilakukan dengan memanfaatkan strategi pelatihan permusuhan temporal. Strategi ini memperkenalkan diskriminator temporal untuk menghasilkan kernel pose yang koheren secara temporal dan hasil estimasi pose dalam jangka panjang. Pendekatan ini diuji pada benchmark Penn Action dan Sub-JHMDB.

Arsitektur pendekatan ini ditunjukkan di bawah ini. Ini terdiri dari penginisialisasi pose, encoder bingkai, penyuling kernel pose, dan diskriminator permusuhan sementara. DKD menggunakan penginisialisasi pose untuk memperkirakan peta kepercayaannya. Frame encoder bertanggung jawab untuk mengekstraksi fitur tingkat tinggi agar sesuai dengan kernel pose dari penyuling kernel pose. Penyuling kernel pose mengambil informasi temporal sebagai masukan dan menyaring kernel pose dengan cara umpan maju satu kali. Dan diskriminator permusuhan temporal digunakan untuk meningkatkan proses pembelajaran penyuling kernel pose, dengan variasi peta kepercayaan sebagai pengawasan temporal tambahan.

Beberapa hasil yang diperoleh dengan dataset Penn Action ditunjukkan di bawah ini:

Berikut perbandingan hasil yang diperoleh pada dataset Penn Action dan Sub-JHMDB.

DistilBERT, versi sulingan BERT: lebih kecil, lebih cepat, lebih murah, dan lebih ringan (NeurIPS 2019)

Makalah ini mengusulkan cara untuk melatih terlebih dahulu model representasi bahasa tujuan umum yang lebih kecil, yang dikenal sebagai DistilBERT — versi sulingan dari BERT. Arsitektur DistilBERT mirip dengan BERT.



Kinerja pendekatan ini dibandingkan dengan BERT ditunjukkan di bawah ini.

DistilBERT disuling dalam jumlah besar dengan memanfaatkan akumulasi gradien, menggunakan penyembunyian dinamis dan tanpa tujuan prediksi kalimat berikutnya. Ini dilatih pada korpus asli model BERT dan dinilai berdasarkan tolok ukur General Language Understanding Evaluation (GLUE). DistilBERT mempertahankan 97% kinerja BERT dan 60% lebih cepat.

Kesimpulan

Kita sekarang harus mengetahui beberapa metode distilasi model yang paling umum — dan beberapa yang terbaru.

Makalah/abstrak yang disebutkan dan ditautkan di atas juga berisi tautan ke implementasi kodenya. Kami akan senang melihat hasil yang Anda peroleh setelah mengujinya.



Catatan Editor: Heartbeat adalah publikasi dan komunitas online berbasis kontributor yang berdedikasi untuk menyediakan sumber daya pendidikan utama bagi ilmu data, pembelajaran mesin, dan praktisi pembelajaran mendalam. Kami berkomitmen untuk mendukung dan menginspirasi developer dan engineer dari semua lapisan masyarakat.

Secara editorial independen, Heartbeat disponsori dan diterbitkan oleh Comet, sebuah platform MLOps yang memungkinkan ilmuwan data & tim ML melacak, membandingkan, menjelaskan, & mengoptimalkan eksperimen mereka. Kami membayar kontributor kami, dan kami tidak menjual iklan.

Jika Anda ingin berkontribusi, kunjungi panggilan untuk kontributor kami. Anda juga dapat mendaftar untuk menerima buletin mingguan kami (“Deep Learning Weekly” dan “Comet Newsletter”), bergabunglah dengan kami di “” “Slack”, dan ikuti Comet di “Twitter” dan “LinkedIn” untuk sumber daya, acara, dan masih banyak lagi yang akan membantu Anda membangun model ML yang lebih baik dan lebih cepat.