Menguraikan Sinergi LLM Federasi: Keuntungan, Tantangan, dan Jalan ke Depan di Era Berbasis Data

Teori pembelajaran yang ideal, ketika diterapkan di dunia nyata, selalu menghadapi berbagai tantangan, mulai dari penerapan model hingga kompresi model, dan dari aksesibilitas data hingga masalah privasi data. Mengingat kelangkaan data domain publik dan masalah privasi data domain pribadi, Federated Learning, sebagai kerangka pembelajaran mesin terdistribusi, telah mendapatkan perhatian yang signifikan.

Dengan munculnya dan pematangan model-model besar, ketergantungan Model Bahasa Besar (LLM) pada data pelatihan yang luas, ditambah dengan masalah privasi data dan persaingan komersial, telah menimbulkan kebingungan baru: Bagaimana seseorang dapat melatih sejumlah besar secara kolaboratif model bahasa menggunakan data terisolasi dari berbagai entitas komersial tanpa melanggar peraturan privasi data? Bayangkan sebuah skenario ketika tiga rumah sakit ingin melatih model khusus untuk domain medis. Secara individual, tidak ada satupun yang memiliki data yang memadai untuk memenuhi tuntutan model yang besar, dan pembagian data yang lengkap di antara ketiga model tersebut tidak praktis karena masalah privasi. Dengan latar belakang ini, terdapat kebutuhan mendesak akan arsitektur dan metodologi pelatihan berdasarkan Federated Learning untuk LLM, yang dapat mengatasi tantangan distribusi pelatihan model besar.

Menanggapi tantangan ini, Universitas Zhejiang memperkenalkan konsep LLM Federasi, membangun tiga komponen integral dari LLM Federasi: Pra-pelatihan LLM Federasi, Penyempurnaan LLM Federasi, dan Rekayasa Cepat LLM Federasi. Untuk setiap komponen, makalah ini membahas kelebihannya dibandingkan metode pelatihan LLM tradisional dan mengusulkan strategi penerapan teknik khusus. Terakhir, mengenai integrasi Pembelajaran Federasi dengan LLM, makalah ini menyoroti tantangan baru yang ditimbulkan oleh konvergensi kedua domain dan solusi potensial.

Title of the Paper:
Federated Large Language Model: A Position Paper
Link to the Paper:
https://arxiv.org/pdf/2307.08925.pdf

Dari Pembelajaran Federasi hingga LLM Federasi

Komputasi yang menjaga privasi adalah teknik yang dirancang untuk mengatasi tantangan pemanfaatan data dari domain pribadi untuk pelatihan model sekaligus menjaga privasi data. Metode komputasi yang menjaga privasi saat ini terutama mencakup metode berbasis kriptografi, metode perangkat keras tepercaya, dan pembelajaran gabungan. Tuntutan komputasi yang luas pada model besar membatasi penerapan metode kriptografi dan perangkat keras dalam pelatihannya. Pembelajaran gabungan, sebagai kerangka kerja matang yang menyeimbangkan efisiensi dan keamanan privasi, memiliki potensi signifikan untuk komputasi yang menjaga privasi dalam pelatihan model besar.

Pembelajaran gabungan, sebagai paradigma pembelajaran mesin, menyelesaikan tugas melatih model bersama secara kolaboratif yang diawasi oleh server pusat, yang melibatkan banyak klien. Berbeda dengan metode pembelajaran mesin terpusat tradisional, pembelajaran gabungan memungkinkan data tetap ada disimpan secara lokal, sehingga mengurangi risiko privasi terkait. Dalam bidang pembelajaran gabungan, perangkat klien memperbarui informasi seperti bobot dan gradien jaringan secara asinkron, yang bertujuan untuk meminimalkan risiko kebocoran data dan mengurangi kebutuhan bandwidth. Algoritme pembelajaran gabungan yang menonjol antara lain adalah Federated Averaging dan Differential Privacy.

Sejalan dengan itu, ketika berupaya untuk melatih model bahasa berskala besar, prosesnya secara umum dapat disegmentasi menjadi tiga fase: pra-pelatihan, penyesuaian adaptif, dan penerapan. Selama fase pra-pelatihan, model menjalani pelatihan tanpa pengawasan menggunakan data teks tidak berlabel untuk memperoleh pengetahuan linguistik dasar. Sebaliknya, penyesuaian adaptif didorong oleh persyaratan domain tertentu atau tugas hilir, baik dengan membekukan parameter jaringan backbone atau dengan menyesuaikan keluaran model menggunakan beragam perintah.

Mengintegrasikan konsep pembelajaran gabungan dan model bahasa skala besar, penulis makalah ini mempelajari secara mendalam proses pelatihan LLM dalam kerangka pembelajaran gabungan. Secara khusus, penulis fokus pada tiga komponen penting LLM gabungan: Pra-pelatihan LLM Federasi, Penyempurnaan LLM Federasi, dan Rekayasa Cepat LLM Federasi.

LLM Federasi: Desain Arsitektur

Salah satu tantangan utama yang dihadapi oleh pelatihan model besar tradisional adalah kelangkaan data pelatihan berkualitas tinggi. Biasanya, model ini mengandalkan kumpulan data yang tersedia untuk umum selama fase pelatihannya, seperti Wikipedia, buku, kode sumber, dan sejenisnya. Studi terbaru juga menunjukkan bahwa data linguistik berkualitas tinggi mungkin akan habis pada tahun 2026, sedangkan data berkualitas rendah akan habis antara tahun 2030 hingga 2050.

Dengan latar belakang ini, Prapelatihan LLM gabungan, dengan menggabungkan sumber data publik yang terpusat dengan sumber data swasta yang terdesentralisasi, dapat secara signifikan meningkatkan kemampuan generalisasi model dan meletakkan dasar bagi skalabilitasnya di masa depan. Secara khusus, pendapat para penulis. desain untuk pra-pelatihan LLM Federasi mencakup dua metode implementasi. Metode pertama dimulai dengan data mentah dari beberapa klien, dilanjutkan melalui prapemrosesan data, desain arsitektur LLM, dan desain tugas untuk pra-pelatihan model. Di sisi server, informasi gradien dari setiap klien diterima, dikumpulkan, dan dihitung sebelum diteruskan kembali ke masing-masing klien. Metode ini memerlukan biaya komputasi dan komunikasi yang besar. Sebaliknya, metode kedua tidak melatih kembali LLM dari awal namun memanfaatkan model sumber terbuka yang sudah ada, menyempurnakan langsung model dasar tersebut. Meskipun metode pertama menawarkan potensi kinerja yang unggul dan mendukung arsitektur model khusus, metode kedua mengurangi biaya overhead dengan mengorbankan beberapa kemampuan adaptasi tugas. Metode pra-pelatihan LLM Federasi digambarkan pada gambar di sebelah kiri:

Dalam bidang penyempurnaan LLM Federasi, intinya terletak pada mengatasi masalah kolaborasi di antara klien yang berbeda. Makalah ini memperkenalkan dua metode penyempurnaan LLM Federasi. Yang pertama melibatkan setiap klien yang mereplikasi model yang telah dilatih sebelumnya dan melakukan penyempurnaan model penuh. Metode kedua mensinergikan penyesuaian parameter yang efisien dengan kerangka pembelajaran gabungan, menggunakan teknik seperti LoRA untuk mengurangi biaya komputasi dan komunikasi, mencapai keseimbangan antara mempertahankan kinerja komputasi dan mengurangi biaya overhead. Metode keseluruhan digambarkan pada gambar di sebelah kanan.

Terakhir, untuk memanfaatkan teknologi Prompt guna meningkatkan pembelajaran kontekstual model dan kemampuannya menangani tugas-tugas rumit, penulis mengusulkan metode Federated LLM Prompt Engineering. Hal ini memastikan perlindungan privasi saat menghasilkan Perintah pada data sensitif. Seperti yang dapat dilihat dari gambar berikut, parameter yang diteruskan dari klien ke server semata-mata berkaitan dengan interaksi antara Prompt dan teks, tidak termasuk penyematan fitur masukan apa pun. Selanjutnya, dalam Federated Prompt Engineering, penulis menggunakan Soft Prompt (di mana Prompt beroperasi dalam ruang penyematan model). Soft Prompt selaras dengan prasyarat pembelajaran gabungan, sehingga memperkuat efektivitas kolaboratif antara pembelajaran gabungan dan model besar.

Tantangan LLM Federasi

Penggabungan pembelajaran gabungan dengan model-model besar saat ini menghadapi banyak tantangan. Secara khusus, penulis mengategorikan masalah ini ke dalam empat tantangan utama: ancaman dan pertahanan keamanan, ancaman dan peningkatan privasi, masalah efisiensi, dan penanganan data yang tidak independen dan terdistribusi secara identik (Non-IID).

Diantaranya, ancaman keamanan terutama mengacu pada penyerang potensial yang mengeksploitasi kerentanan untuk membahayakan keamanan sistem dan kebijakan privasi. Di bawah kerangka pembelajaran gabungan, terdapat metode serangan seperti serangan keracunan dan serangan sampel permusuhan. Berbagai jenis serangan berdampak pada berbagai fase pelatihan pembelajaran gabungan.

Serangan keracunan dapat dibagi menjadi serangan keracunan data dan serangan keracunan model. Serangan keracunan data terjadi selama fase pengumpulan data awal, saat pelaku kejahatan memasukkan sampel data yang rusak ke dalam kumpulan data gabungan. Sebaliknya, serangan keracunan model membahayakan integritas model dengan memasukkan parameter atau gradien berbahaya ke dalam model global, sehingga menghambat proses pembelajaran. Serangan sampel permusuhan sebagian besar terjadi selama fase inferensi, yang bertujuan untuk menipu model yang sudah terlatih melalui gangguan kecil terhadap sampel, sehingga menghasilkan prediksi yang salah. Metode serangan ini tersebar luas dalam arsitektur Transformer, dan tingkat keberhasilannya dalam LLM Federasi jauh lebih tinggi dan sulit dipahami. Mode pelatihan terdistribusi dari pembelajaran gabungan memperbesar potensi kebocoran parameter model, sehingga membuat model rentan terhadap serangan white-box. Penanggulangan ancaman keamanan saat ini antara lain mencakup pembersihan data, agregasi yang kuat, dan pelatihan permusuhan. Namun, beberapa tindakan ini terkadang bertentangan dengan tujuan pembelajaran gabungan, sehingga menimbulkan tantangan dalam mengatasi ancaman keamanan dalam praktiknya.

Ancaman privasi terutama mengacu pada potensi bahaya yang dapat ditimbulkan oleh akses tidak sah terhadap informasi sensitif terhadap tujuan model. Serangan privasi ini bertujuan untuk mengekstrak informasi pribadi dan manfaat lainnya di berbagai tahap pembelajaran gabungan. Serangan tersebut terutama mencakup contoh kebocoran privasi, serangan jaringan permusuhan generatif, serangan inferensi, dan serangan Prompt, antara lain.

LLM gabungan memperkenalkan ancaman privasi baru. Misalnya, LLM mungkin secara tidak sengaja mengungkapkan beberapa data pelatihan, seperti catatan medis atau rincian rekening bank. Sejumlah penelitian membuktikan bahwa model berukuran besar mungkin menghasilkan informasi sensitif, yang menyebabkan pelanggaran privasi. Sejalan dengan itu, teknik peningkatan privasi seperti enkripsi homomorfik, komputasi aman multi-pihak, dan privasi diferensial dapat membantu mengurangi ancaman privasi dalam pembelajaran gabungan. Namun, dalam konteks LLM Federasi, besarnya parameter model dan kedalaman model berarti bahwa penggunaan teknik seperti privasi diferensial dapat mengakibatkan penurunan kinerja model.

Tantangan signifikan lainnya yang dihadapi oleh LLM Federasi berkaitan dengan biaya komunikasi. Memperbarui dan menukar gradien antara banyak perangkat dan server dapat menimbulkan biaya komunikasi yang besar, memperpanjang waktu komunikasi dan menghambat pelatihan normal LLM Federasi. Sepanjang proses pelatihan LLM Federasi, berbagai metode dapat digunakan untuk mengoptimalkan pelatihan model. Misalnya, selama fase pra-pelatihan, teknik seperti paralelisme model dan paralelisme pipeline dapat digunakan, yang mendistribusikan parameter model yang luas ke beberapa GPU. Dengan mengadopsi transfer tensor dan transfer pengoptimal, seseorang dapat mengurangi konsumsi memori dan mempercepat pelatihan model. Selain itu, data Non-IID menimbulkan tantangan yang tidak dapat dihindari terhadap pelatihan pembelajaran gabungan, yang berdampak buruk pada kecepatan dan akurasi konvergensi.

Musim panas

Makalah ini menawarkan gambaran komprehensif tentang perpaduan pembelajaran gabungan dan model besar. Dengan menggambarkan kerangka dasar pengintegrasian pembelajaran gabungan dengan pelatihan model besar ke dalam tiga komponen utama, makalah ini menjelaskan keunggulan LLM Federasi sekaligus menyoroti tantangan baru yang muncul dari 'melintasi batas' antara kedua domain tersebut. Seiring dengan semakin matangnya teknologi model besar, LLM Federasi pasti akan menjadi agenda perhatian masyarakat. Kami mengantisipasi upaya yang lebih teliti dan mendalam dalam bidang ini di masa depan.