การถอดรหัสการทำงานร่วมกันของ Federated LLMs: ข้อดี ความท้าทาย และเส้นทางข้างหน้าในยุคที่ขับเคลื่อนด้วยข้อมูล

ทฤษฎีการเรียนรู้ในอุดมคติเมื่อนำไปใช้กับโลกแห่งความเป็นจริง มักจะเผชิญกับความท้าทายมากมาย ตั้งแต่การปรับใช้โมเดลไปจนถึงการบีบอัดโมเดล และจากการเข้าถึงข้อมูลไปจนถึงข้อกังวลด้านความเป็นส่วนตัวของข้อมูล เนื่องจากข้อมูลสาธารณสมบัติขาดแคลนและปัญหาความเป็นส่วนตัวของข้อมูลโดเมนส่วนตัว การเรียนรู้แบบสหพันธ์ซึ่งเป็นเฟรมเวิร์กการเรียนรู้ของเครื่องแบบกระจายจึงได้รับความสนใจอย่างมาก

ด้วยการถือกำเนิดและการเจริญเติบโตของโมเดลขนาดใหญ่ การพึ่งพาโมเดลภาษาขนาดใหญ่ (LLM) ในข้อมูลการฝึกอบรมจำนวนมาก ควบคู่ไปกับความเป็นส่วนตัวของข้อมูลและข้อกังวลด้านการแข่งขันทางการค้า ได้ก่อให้เกิดความลังเลใจใหม่: เราจะร่วมมือกันฝึกอบรมโมเดลขนาดใหญ่ได้อย่างไร แบบจำลองภาษาโดยใช้ข้อมูลที่แยกได้จากหน่วยงานเชิงพาณิชย์ต่างๆ โดยไม่ละเมิดกฎความเป็นส่วนตัวของข้อมูลหรือไม่ ลองนึกภาพสถานการณ์ที่โรงพยาบาลสามแห่งต้องการฝึกอบรมโมเดลเฉพาะทางสำหรับขอบเขตทางการแพทย์ โดยส่วนตัวแล้ว ไม่มีข้อมูลใดที่มีข้อมูลเพียงพอต่อความต้องการของโมเดลขนาดใหญ่ และการแบ่งปันข้อมูลโดยสมบูรณ์ระหว่างทั้งสามสิ่งนี้ไม่สามารถทำได้เนื่องจากข้อกังวลด้านความเป็นส่วนตัว ในสถานการณ์เช่นนี้ มีความจำเป็นเร่งด่วนสำหรับสถาปัตยกรรมการฝึกอบรมและวิธีการที่ใช้การเรียนรู้แบบสมาพันธ์สำหรับ LLM เพื่อจัดการกับความท้าทายของการฝึกอบรมโมเดลขนาดใหญ่แบบกระจาย

เพื่อตอบสนองต่อความท้าทายนี้ มหาวิทยาลัยเจ้อเจียงได้นำเสนอแนวคิดของ Federated LLM โดยสร้างองค์ประกอบที่สำคัญ 3 ประการของ Federated LLM ได้แก่ การฝึกอบรมล่วงหน้าของ Federated LLM, การปรับแต่ง Federated LLM แบบละเอียด และ Federated LLM Prompt Engineering สำหรับแต่ละองค์ประกอบ บทความจะกล่าวถึงข้อดีเหนือวิธีการฝึกอบรม LLM แบบดั้งเดิม และเสนอกลยุทธ์การดำเนินงานทางวิศวกรรมที่เฉพาะเจาะจง สุดท้ายนี้ กล่าวถึงการบูรณาการการเรียนรู้แบบสมาพันธ์กับ LLM โดยเน้นย้ำถึงความท้าทายใหม่ๆ ที่เกิดจากการบรรจบกันของทั้งสองโดเมนและวิธีแก้ปัญหาที่เป็นไปได้

Title of the Paper:
Federated Large Language Model: A Position Paper
Link to the Paper:
https://arxiv.org/pdf/2307.08925.pdf

จากการเรียนรู้แบบสหพันธ์ไปจนถึง LLM แบบสหพันธ์

การคำนวณที่รักษาความเป็นส่วนตัวเป็นเทคนิคที่ออกแบบมาเพื่อตอบสนองความท้าทายในการใช้ข้อมูลจากโดเมนส่วนตัวสำหรับการฝึกโมเดลในขณะเดียวกันก็ปกป้องความเป็นส่วนตัวของข้อมูล วิธีปัจจุบันสำหรับการคำนวณการรักษาความเป็นส่วนตัวประกอบด้วยวิธีที่ใช้การเข้ารหัส วิธีฮาร์ดแวร์ที่เชื่อถือได้ และการเรียนรู้แบบรวมศูนย์ ความต้องการด้านการคำนวณที่กว้างขวางของโมเดลขนาดใหญ่จำกัดการประยุกต์ใช้วิธีการเข้ารหัสและฮาร์ดแวร์ในการฝึกอบรม การเรียนรู้แบบสมาพันธ์ซึ่งเป็นเฟรมเวิร์กที่สมบูรณ์ซึ่งสร้างสมดุลระหว่างประสิทธิภาพและความปลอดภัยด้านความเป็นส่วนตัว ถือเป็นศักยภาพที่สำคัญสำหรับการคำนวณที่รักษาความเป็นส่วนตัวในการฝึกอบรมโมเดลขนาดใหญ่

การเรียนรู้แบบสหพันธรัฐในฐานะกระบวนทัศน์การเรียนรู้ของเครื่องทำให้ภารกิจในการฝึกอบรมโมเดลที่ใช้ร่วมกันร่วมกันภายใต้การดูแลโดยเซิร์ฟเวอร์กลางซึ่งเกี่ยวข้องกับไคลเอนต์หลายรายสำเร็จ การเรียนรู้แบบรวมศูนย์ทำให้ข้อมูลยังคงอยู่ ตรงกันข้ามกับวิธีการเรียนรู้ของเครื่องแบบรวมศูนย์แบบดั้งเดิม เก็บไว้ในเครื่อง จึงช่วยลดความเสี่ยงด้านความเป็นส่วนตัวที่เกี่ยวข้อง ภายในขอบเขตของการเรียนรู้แบบสมาพันธ์ อุปกรณ์ไคลเอนต์จะอัปเดตข้อมูลแบบอะซิงโครนัส เช่น น้ำหนักเครือข่ายและการไล่ระดับสี โดยมีเป้าหมายเพื่อลดความเสี่ยงของการรั่วไหลของข้อมูลและลดความต้องการแบนด์วิดท์ อัลกอริธึมการเรียนรู้แบบรวมศูนย์ที่โดดเด่น ได้แก่ Federated Averaging และ Differential Privacy และอื่นๆ อีกมากมาย

ในทำนองเดียวกัน เมื่อพยายามฝึกแบบจำลองภาษาขนาดใหญ่ กระบวนการโดยทั่วไปสามารถแบ่งออกเป็นสามขั้นตอน: การฝึกอบรมล่วงหน้า การปรับแต่งแบบปรับได้อย่างละเอียด และการใช้งาน ในระหว่างขั้นตอนก่อนการฝึกอบรม โมเดลจะได้รับการฝึกอบรมแบบไม่มีผู้ดูแลโดยใช้ข้อมูลข้อความที่ไม่มีป้ายกำกับเพื่อรับความรู้พื้นฐานทางภาษา ในทางกลับกัน การปรับแบบละเอียดแบบปรับได้นั้นขับเคลื่อนโดยโดเมนเฉพาะหรือข้อกำหนดของงานดาวน์สตรีม ไม่ว่าจะโดยการแช่แข็งพารามิเตอร์เครือข่ายแกนหลักหรือโดยการปรับเอาต์พุตของโมเดลโดยใช้พร้อมท์ที่หลากหลาย

ผู้เขียนรายงานเจาะลึกกระบวนการฝึกอบรมของ LLM ภายในกรอบการเรียนรู้แบบสหพันธ์โดยผสมผสานแนวคิดของการเรียนรู้แบบสมาพันธ์และแบบจำลองภาษาขนาดใหญ่ โดยเฉพาะอย่างยิ่ง ผู้เขียนมุ่งเน้นไปที่องค์ประกอบสำคัญสามประการของ LLM แบบรวมศูนย์: การฝึกอบรมล่วงหน้าของ Federated LLM, การปรับแต่งแบบละเอียดของ LLM แบบรวมศูนย์ และวิศวกรรมพร้อมท์ LLM แบบรวมศูนย์

Federated LLMs: การออกแบบสถาปัตยกรรม

หนึ่งในความท้าทายหลักที่การฝึกอบรมโมเดลขนาดใหญ่แบบดั้งเดิมต้องเผชิญคือการขาดแคลนข้อมูลการฝึกอบรมคุณภาพสูง โดยทั่วไป โมเดลเหล่านี้อาศัยชุดข้อมูลที่เปิดเผยต่อสาธารณะในระหว่างขั้นตอนการฝึกอบรม เช่น Wikipedia หนังสือ ซอร์สโค้ด และอื่นๆ ที่คล้ายคลึงกัน การศึกษาล่าสุดยังระบุด้วยว่าข้อมูลทางภาษาคุณภาพสูงอาจหมดลงภายในปี 2569 ในขณะที่ข้อมูลคุณภาพต่ำอาจหมดลงระหว่างปี 2573 ถึง 2593

เมื่อเทียบกับฉากหลังนี้ การฝึกอบรมล่วงหน้า Federated LLM โดยการผสมผสานแหล่งข้อมูลสาธารณะแบบรวมศูนย์เข้ากับแหล่งข้อมูลส่วนตัวแบบกระจายอำนาจ จะช่วยเพิ่มขีดความสามารถในการวางนัยทั่วไปของโมเดลได้อย่างมาก และวางรากฐานสำหรับความสามารถในการขยายขนาดในอนาคต โดยเฉพาะอย่างยิ่ง ผู้เขียน การออกแบบสำหรับการฝึกอบรมล่วงหน้า Federated LLM ครอบคลุมวิธีการนำไปใช้สองวิธี วิธีแรกเริ่มต้นด้วยข้อมูลดิบจากไคลเอนต์หลายราย ดำเนินการผ่านการประมวลผลข้อมูลล่วงหน้า การออกแบบสถาปัตยกรรม LLM และการออกแบบงานสำหรับการฝึกอบรมโมเดลล่วงหน้า ทางฝั่งเซิร์ฟเวอร์ ข้อมูลการไล่ระดับสีจากไคลเอนต์แต่ละรายจะได้รับ รวม และคำนวณก่อนที่จะส่งต่อกลับไปยังไคลเอนต์ที่เกี่ยวข้อง วิธีการนี้คาดว่าจะมีค่าใช้จ่ายด้านการคำนวณและการสื่อสารจำนวนมาก ในทางตรงกันข้าม วิธีที่สองไม่ได้ฝึก LLM ใหม่ตั้งแต่ต้น แต่ใช้โมเดลโอเพ่นซอร์สที่มีอยู่ ปรับอย่างละเอียดโดยตรงบนโมเดลพื้นฐานเหล่านี้ แม้ว่าวิธีแรกจะมีประสิทธิภาพที่เหนือกว่าและรองรับสถาปัตยกรรมโมเดลแบบกำหนดเอง แต่วิธีหลังจะช่วยลดค่าใช้จ่ายโดยต้องเสียค่าใช้จ่ายในการปรับเปลี่ยนงานบางอย่าง วิธีการฝึกอบรมล่วงหน้าของ Federated LLM แสดงไว้ในภาพด้านซ้าย:

ในขอบเขตของการปรับแต่ง Federated LLM อย่างละเอียด จุดสำคัญอยู่ที่การแก้ไขปัญหาการทำงานร่วมกันระหว่างลูกค้าที่แตกต่างกัน บทความนี้จะแนะนำวิธีการปรับแต่ง Federated LLM แบบละเอียดสองวิธี ประการแรกเกี่ยวข้องกับการที่ลูกค้าแต่ละรายจำลองแบบจำลองที่ได้รับการฝึกอบรมล่วงหน้าและดำเนินการปรับแต่งแบบจำลองเต็มรูปแบบ วิธีที่สองประสานการปรับพารามิเตอร์อย่างมีประสิทธิภาพเข้ากับเฟรมเวิร์กการเรียนรู้แบบรวมศูนย์ โดยใช้เทคนิคเช่น LoRA เพื่อลดต้นทุนด้านการคำนวณและการสื่อสาร สร้างสมดุลระหว่างการรักษาประสิทธิภาพการคำนวณและการลดค่าใช้จ่าย วิธีการโดยรวมแสดงไว้ในภาพด้านขวา

สุดท้ายนี้ เพื่อใช้ประโยชน์จากเทคโนโลยี Prompt เพื่อเพิ่มการเรียนรู้ตามบริบทของโมเดลและความสามารถในการจัดการกับงานที่ซับซ้อน ผู้เขียนได้เสนอวิธี Federated LLM Prompt Engineering สิ่งนี้ทำให้มั่นใจได้ถึงการปกป้องความเป็นส่วนตัวในขณะที่สร้างการแจ้งเตือนเกี่ยวกับข้อมูลที่ละเอียดอ่อน ดังที่เห็นได้จากรูปถัดไป พารามิเตอร์ที่ส่งจากไคลเอ็นต์ไปยังเซิร์ฟเวอร์เกี่ยวข้องกับการมีอิทธิพลซึ่งกันและกันระหว่างพรอมต์และข้อความเท่านั้น ไม่รวมการฝังคุณลักษณะอินพุตใดๆ นอกจากนี้ ภายใน Federated Prompt Engineering ผู้เขียนยังใช้ Soft Prompt (โดยที่ Prompt ทำงานภายในพื้นที่ฝังของโมเดล) Soft Prompt สอดคล้องกับข้อกำหนดเบื้องต้นของการเรียนรู้แบบสมาพันธ์ได้อย่างราบรื่น โดยส่งเสริมประสิทธิภาพในการทำงานร่วมกันระหว่างการเรียนรู้แบบสมาพันธ์และโมเดลขนาดใหญ่

ความท้าทายของ Federated LLM

การผสมผสานระหว่างการเรียนรู้แบบสมาพันธ์กับแบบจำลองขนาดใหญ่ในปัจจุบันกำลังเผชิญกับความท้าทายมากมาย โดยเฉพาะอย่างยิ่ง ผู้เขียนได้จัดหมวดหมู่ปัญหาเหล่านี้ออกเป็นความท้าทายหลักสี่ประการ ได้แก่ ภัยคุกคามและการป้องกันด้านความปลอดภัย ภัยคุกคามและการปรับปรุงความเป็นส่วนตัว ข้อกังวลด้านประสิทธิภาพ และการจัดการข้อมูลที่ไม่เป็นอิสระและกระจายเหมือนกัน (ไม่ใช่ IID)

ภัยคุกคามด้านความปลอดภัยส่วนใหญ่อ้างถึงผู้โจมตีที่อาจใช้ประโยชน์จากช่องโหว่เพื่อประนีประนอมนโยบายความปลอดภัยและความเป็นส่วนตัวของระบบ ภายใต้กรอบการเรียนรู้แบบรวมศูนย์ มีวิธีการโจมตี เช่น การโจมตีแบบวางยาพิษ และการโจมตีตัวอย่างแบบฝ่ายตรงข้าม การโจมตีประเภทต่างๆ ส่งผลต่อขั้นตอนการฝึกอบรมต่างๆ ของการเรียนรู้แบบสมาพันธ์

การโจมตีแบบเป็นพิษสามารถแยกออกเป็นการโจมตีแบบเป็นพิษต่อข้อมูลและแบบจำลองการโจมตีแบบเป็นพิษได้ การโจมตีข้อมูลเป็นพิษเกิดขึ้นในระหว่างขั้นตอนการรวบรวมข้อมูลเริ่มต้น โดยที่ผู้โจมตีจะนำตัวอย่างข้อมูลที่เสียหายมาสู่ชุดข้อมูลแบบรวมศูนย์ ในทางกลับกัน การโจมตีแบบเป็นพิษต่อโมเดลจะส่งผลต่อความสมบูรณ์ของโมเดลโดยการฉีดพารามิเตอร์ที่เป็นอันตรายหรือการไล่ระดับสีลงในโมเดลส่วนกลาง ซึ่งเป็นอุปสรรคต่อกระบวนการเรียนรู้ การโจมตีตัวอย่างฝ่ายตรงข้ามส่วนใหญ่เกิดขึ้นในระหว่างขั้นตอนการอนุมาน โดยมีเป้าหมายที่จะหลอกลวงแบบจำลองที่ได้รับการฝึกมาอย่างดีผ่านการรบกวนตัวอย่างเพียงเล็กน้อย ซึ่งนำไปสู่การคาดการณ์ที่ผิดพลาด วิธีการโจมตีเหล่านี้แพร่หลายภายใต้สถาปัตยกรรม Transformer และอัตราความสำเร็จภายใน Federated LLM นั้นสูงกว่าและเข้าใจยากกว่าอย่างเห็นได้ชัด โหมดการฝึกอบรมแบบกระจายของการเรียนรู้แบบสหพันธรัฐขยายโอกาสการรั่วไหลของพารามิเตอร์โมเดล ทำให้โมเดลเสี่ยงต่อการโจมตีแบบไวท์บ็อกซ์ มาตรการรับมือในปัจจุบันต่อภัยคุกคามความปลอดภัยเหล่านี้ ได้แก่ การล้างข้อมูล การรวมกลุ่มที่แข็งแกร่ง และการฝึกอบรมฝ่ายตรงข้าม และอื่นๆ อีกมากมาย อย่างไรก็ตาม มาตรการเหล่านี้บางส่วนขัดแย้งกับวัตถุประสงค์ของการเรียนรู้แบบสมาพันธ์ ซึ่งทำให้เกิดความท้าทายในการจัดการกับภัยคุกคามด้านความปลอดภัยในทางปฏิบัติ

ภัยคุกคามความเป็นส่วนตัวโดยหลักแล้วเป็นการพาดพิงถึงอันตรายที่อาจเกิดขึ้นจากการเข้าถึงข้อมูลที่ละเอียดอ่อนโดยไม่ได้รับอนุญาตซึ่งสามารถสร้างความเสียหายต่อวัตถุประสงค์ของแบบจำลองได้ การโจมตีความเป็นส่วนตัวเหล่านี้มีจุดมุ่งหมายเพื่อดึงข้อมูลส่วนตัวและผลประโยชน์อื่นๆ ในขั้นตอนต่างๆ ของการเรียนรู้แบบสมาพันธ์ โดยส่วนใหญ่ครอบคลุมถึงตัวอย่างการรั่วไหลของความเป็นส่วนตัว การโจมตีเครือข่ายที่สร้างความขัดแย้ง การโจมตีแบบอนุมาน และการโจมตีพร้อมท์ และอื่นๆ อีกมากมาย

Federated LLMs นำเสนอภัยคุกคามความเป็นส่วนตัวรูปแบบใหม่ ตัวอย่างเช่น LLM อาจเปิดเผยข้อมูลการฝึกอบรมบางอย่างโดยไม่ได้ตั้งใจ เช่น เวชระเบียนหรือรายละเอียดบัญชีธนาคาร การศึกษาจำนวนมากยืนยันว่าโมเดลขนาดใหญ่อาจสร้างข้อมูลที่ละเอียดอ่อน ซึ่งนำไปสู่การละเมิดความเป็นส่วนตัว ในทำนองเดียวกัน เทคนิคการเพิ่มความเป็นส่วนตัว เช่น การเข้ารหัสแบบโฮโมมอร์ฟิก การคำนวณที่ปลอดภัยแบบหลายฝ่าย และความเป็นส่วนตัวที่แตกต่างกัน สามารถช่วยลดภัยคุกคามความเป็นส่วนตัวในการเรียนรู้แบบสมาพันธ์ได้ อย่างไรก็ตาม ในบริบทของ Federated LLM ขนาดของพารามิเตอร์โมเดลและความลึกของโมเดลหมายความว่าการใช้เทคนิคต่างๆ เช่น Differential Privacy อาจส่งผลให้ประสิทธิภาพของโมเดลลดลง

ความท้าทายที่สำคัญอีกประการหนึ่งที่ Federated LLM ต้องเผชิญคือค่าใช้จ่ายด้านการสื่อสาร การอัปเดตและการแลกเปลี่ยนการไล่ระดับสีระหว่างอุปกรณ์และเซิร์ฟเวอร์จำนวนมากอาจทำให้เกิดต้นทุนการสื่อสารจำนวนมาก ทำให้เวลาในการสื่อสารยาวนานขึ้น และขัดขวางการฝึกอบรมตามปกติของ Federated LLM ตลอดกระบวนการฝึกอบรมของ Federated LLM สามารถใช้วิธีการต่างๆ เพื่อเพิ่มประสิทธิภาพการฝึกโมเดลได้ ตัวอย่างเช่น ในระหว่างขั้นตอนก่อนการฝึกอบรม สามารถใช้เทคนิคต่างๆ เช่น โมเดลความเท่าเทียมและความขนานของไปป์ไลน์ได้ โดยกระจายพารามิเตอร์ของโมเดลจำนวนมหาศาลไปยัง GPU หลายตัว การใช้การถ่ายโอนเทนเซอร์และการถ่ายโอนเครื่องมือเพิ่มประสิทธิภาพ จะทำให้เราสามารถลดการใช้หน่วยความจำและเร่งการฝึกโมเดลได้ นอกจากนี้ ข้อมูลที่ไม่ใช่ IID ยังทำให้เกิดความท้าทายที่หลีกเลี่ยงไม่ได้สำหรับการฝึกอบรมการเรียนรู้แบบรวมศูนย์ ซึ่งส่งผลเสียต่อความเร็วและความแม่นยำในการบรรจบกัน

พักร้อน

บทความนี้นำเสนอภาพรวมที่ครอบคลุมของการหลอมรวมการเรียนรู้แบบสมาพันธ์และแบบจำลองขนาดใหญ่ บทความนี้ได้อธิบายข้อดีของ Federated LLMs ขณะเดียวกันก็เน้นย้ำถึงความท้าทายใหม่ๆ ที่เกิดขึ้นจาก "การข้ามขอบเขต" ระหว่างทั้งสองโดเมนด้วยการแบ่งกรอบพื้นฐานของการบูรณาการการเรียนรู้แบบสมาพันธ์เข้ากับการฝึกอบรมแบบจำลองขนาดใหญ่ออกเป็นสามองค์ประกอบหลัก เมื่อเทคโนโลยีโมเดลขนาดใหญ่เติบโตขึ้น Federated LLM จะก้าวขึ้นมาเป็นวาระที่ได้รับความสนใจจากประชาชนอย่างหลีกเลี่ยงไม่ได้ เราคาดหวังถึงความพยายามที่พิถีพิถันและเจาะลึกมากขึ้นในด้านนี้ในอนาคต