Pendekatan unik untuk penyulingan pengetahuan

Bidang pemrosesan bahasa alami telah mengalami revolusi dengan munculnya model besar yang telah dilatih sebelumnya seperti BERT dan GPT-3. Model-model ini mampu menangkap sejumlah besar informasi dari sejumlah besar teks yang telah mereka latih dan menggunakan informasi ini untuk mencapai performa canggih dan terus meningkatkan berbagai tugas seperti klasifikasi, peringkasan, dan keterlibatan.

Salah satu alasan performa luar biasa model ini adalah ukurannya. BERT-base memiliki 110 juta parameter, BERT-large dengan 340 juta parameter, GPT-2 dengan 1,5 miliar parameter, dan GPT-3 memiliki 175 miliar parameter. Seiring bertambahnya ukuran model ini, waktu dan sumber daya yang diperlukan untuk melatih model tersebut juga meningkat. Untuk membuat model ini hemat biaya dan sumber daya, serangkaian penelitian yang berfokus pada pengurangan ukuran model telah berkembang. Beberapa teknik telah diadopsi untuk melakukan hal ini:

  • Kuantisasi berfokus pada pengurangan ukuran bobot model (dari angka 32-bit menjadi angka 16 atau 8-bit).
  • Pemangkasan mengidentifikasi bobot yang berlebihan dan mencoba membuangnya.
  • Distilasi Pengetahuan berfokus pada pembuatan model yang lebih kecil dan disempurnakan dengan mencoba mencocokkan model yang lebih besar (guru) dengan model yang lebih kecil (siswa). Model seperti DistilBERT dan MobileBERT memperluas konsep ini untuk membuat model terlatih yang lebih kecil menggunakan pengajar BERT.

Secara umum penyulingan pengetahuan terdiri dari 2 bagian:

  1. Tujuan pelatihan awal: Tujuan ini berfokus untuk membuat model siswa mempelajari label yang tepat (selama penyesuaian) atau tujuan pra-pelatihan yang benar
  2. Tujuan penyulingan: Tujuan ini mencoba mencocokkan probabilitas keluaran (dan mungkin keadaan tersembunyi) siswa dengan probabilitas guru. Hal ini dilakukan dengan memilih metrik jarak dan meminimalkannya antara siswa dan guru.

Para peneliti di Microsoft Dynamics 365 AI Research mencoba mendekati masalah distilasi melalui sudut pandang yang berbeda. Daripada mencoba meminimalkan jarak antara guru dan siswa untuk semua contoh, mengapa tidak mencoba memaksimalkan jarak antara contoh yang salah dan meminimalkan jarak antara contoh yang benar? Hal ini mendorong mereka untuk mengusulkan CODIR, sebuah teknik yang menggunakan pembelajaran kontrastif untuk menyaring keadaan tersembunyi guru kepada siswa. CODIR dapat diterapkan pada tahap pretraining dan finetuning.

Berbeda dengan teknik penyulingan pengetahuan tradisional, CODIR memiliki 3 komponen:

  1. Tujuan pelatihan awal: Ini sama dengan KD biasa
  2. Tujuan penyulingan: Berbeda dengan KD biasa, tujuan ini menggunakan kerugian divergensi KL untuk mengajarkan siswa memprediksi distribusi probabilitas yang serupa dengan guru. Ini hanya diterapkan pada keluaran model siswa.
  3. Tujuan pembelajaran kontrastif:Tujuan ini berfokus pada menjauhkan keadaan tersembunyi siswa dari keadaan guru untuk contoh negatif dan mencocokkannya untuk contoh positif.

Menerapkan CODIR pada tahap finetuning sangatlah mudah. Karena contoh pelatihan mempunyai label, contoh negatif hanyalah contoh yang mempunyai label berbeda dengan contoh positif.

Pada tahap pra-pelatihan, tidak ada label sehingga penerapan tujuan pembelajaran yang kontras menjadi sedikit lebih menantang. Para peneliti menguji CODIR pada model RoBERTa, yang menggunakan pemodelan bahasa bertopeng sebagai tujuan pra-pelatihan. Dalam hal ini, contoh negatif akan menyamarkan kalimat atau teks dari artikel yang sama sehingga secara semantik mirip dengan contoh positif. Dengan cara ini, tujuan pembelajaran kontrastif tidak menjadi terlalu mudah untuk diselesaikan.

Para peneliti menggunakan CODIR untuk mengurangi model Roberta menjadi 6 lapisan dan memverifikasi efektivitasnya pada dataset GLUE. Model ini mencapai akurasi yang hampir sama dengan model BERT asli dengan separuh waktu inferensi.

Berikut adalah link ke makalah jika Anda ingin mempelajari lebih lanjut tentang CODIR, link ke kode agar Anda dapat menyaring model Anda sendiri dan klik di sini untuk melihat lebih banyak publikasi kami dan karya lainnya.

Referensi

  1. Victor Sanh, Lysandre Debut, Julien Chaumond, dan Thomas Wolf. 2019. Distilbert, versi sulingan dari bert: lebih kecil, lebih cepat, lebih murah, dan lebih ringan. arXiv pracetak arXiv:1910.01108.
  2. Zhiqing Sun, Hongkun Yu, Lagu Xiaodan, Renjie Liu, Yiming Yang, dan Denny Zhou. 2020. Mobilebert: perangkat tanpa tugas yang ringkas untuk perangkat dengan sumber daya terbatas. arXiv pracetak arXiv:2004.02984.
  3. Siqi Sun, Zhe Gan, Yu Cheng, Yuwei Fang, Shuohang Wang, dan Jingjing Liu. “Distilasi Kontrasif pada Representasi Menengah untuk Kompresi Model Bahasa.” arXiv preprint arXiv:2009.14167 (2020).