Расшифровка синергии федеративных программ LLM: преимущества, проблемы и дальнейший путь в эпоху, основанную на данных

Идеализированные теории обучения, применяемые к реальному миру, неизменно сталкиваются с множеством проблем: от развертывания моделей до сжатия моделей, а также от доступности данных до проблем конфиденциальности данных. Учитывая нехватку общедоступных данных и проблемы конфиденциальности данных частного домена, федеративное обучение как распределенная среда машинного обучения привлекло значительное внимание.

С появлением и развитием больших моделей зависимость больших языковых моделей (LLM) от обширных обучающих данных в сочетании с проблемами конфиденциальности данных и коммерческой конкуренции привела к появлению нового затруднения: Как можно совместно обучать большой язык? языковая модель с использованием изолированных данных от различных коммерческих организаций без нарушения правил конфиденциальности данных? Представьте себе сценарий, в котором три больницы хотят обучить специализированную модель для медицинской сферы. По отдельности ни один из них не обладает достаточными данными для удовлетворения требований большой модели, а полный обмен данными между тремя непрактичен из соображений конфиденциальности. На этом фоне существует острая потребность в архитектуре и методологии обучения, основанной на федеративном обучении для LLM, решающей проблемы распределенного обучения больших моделей.

В ответ на эту проблему Чжэцзянский университет представил концепцию федеративных программ LLM, создав три неотъемлемых компонента федеративного LLM: предварительное обучение федеративного LLM, тонкая настройка федеративного LLM и быстрое проектирование федеративного LLM. Для каждого компонента в документе обсуждаются его преимущества перед традиционными методами обучения LLM и предлагаются конкретные стратегии инженерной реализации. Наконец, говоря об интеграции федеративного обучения с LLM, в документе освещаются новые проблемы, возникающие в результате сближения двух областей, и возможные решения.

Title of the Paper:
Federated Large Language Model: A Position Paper
Link to the Paper:
https://arxiv.org/pdf/2307.08925.pdf

От федеративного обучения к федеративным программам LLM

Вычисления с сохранением конфиденциальности — это метод, предназначенный для решения проблемы использования данных из частных доменов для обучения моделей при одновременной защите конфиденциальности данных. Современные методы вычислений с сохранением конфиденциальности в первую очередь включают криптографические методы, доверенные аппаратные методы и федеративное обучение. Обширные вычислительные потребности больших моделей ограничивают применение криптографических и аппаратных методов при их обучении. Федеративное обучение как зрелая структура, сочетающая в себе эффективность и безопасность конфиденциальности, обладает значительным потенциалом для вычислений с сохранением конфиденциальности при обучении больших моделей.

Федеративное обучение как парадигма машинного обучения решает задачу совместного обучения общей модели, контролируемой центральным сервером, с участием нескольких клиентов. В отличие от традиционных методов централизованного машинного обучения, федеративное обучение позволяет сохранять данные. хранятся локально, тем самым снижая связанные с этим риски для конфиденциальности. В рамках федеративного обучения клиентские устройства асинхронно обновляют такую ​​информацию, как веса и градиенты сети, стремясь минимизировать риски утечки данных и снизить требования к пропускной способности. Известные алгоритмы федеративного обучения включают, среди прочего, федеративное усреднение и дифференциальную конфиденциальность.

Соответственно, при попытке обучить крупномасштабную языковую модель процесс обычно можно разделить на три этапа: предварительное обучение, адаптивная точная настройка и применение. На этапе предварительного обучения модель проходит обучение без присмотра с использованием немаркированных текстовых данных для приобретения базовых лингвистических знаний. С другой стороны, адаптивная точная настройка определяется требованиями конкретного домена или последующих задач либо путем замораживания параметров магистральной сети, либо путем настройки выходных данных модели с использованием различных подсказок.

Интегрируя концепции федеративного обучения и крупномасштабные языковые модели, авторы статьи глубоко углубляются в процесс обучения LLM в рамках федеративного обучения. В частности, авторы сосредотачивают внимание на трех основных компонентах федеративных LLM: предварительном обучении федеративного LLM, точной настройке федеративного LLM и оперативном проектировании федеративного LLM.

Федеративные LLM: архитектурное проектирование

Одной из существенных проблем, с которыми сталкивается традиционное обучение больших моделей, является нехватка высококачественных обучающих данных. Обычно эти модели на этапе обучения полагаются на общедоступные наборы данных, такие как Википедия, книги, исходные коды и т.п. Недавние исследования также показали, что высококачественные лингвистические данные могут исчерпаться к 2026 году, а данные более низкого качества могут быть исчерпаны в период с 2030 по 2050 год.

На этом фоне Предварительное обучение федеративному LLM путем объединения централизованных общедоступных источников данных с децентрализованными частными источниками данных может значительно улучшить возможности обобщения модели и заложить основу для ее будущей масштабируемости. В частности, авторы Разработка предварительной подготовки Federated LLM включает два метода реализации. Первый метод начинается с необработанных данных от нескольких клиентов, затем проходит предварительную обработку данных, архитектурное проектирование LLM и разработку задач для предварительного обучения модели. На стороне сервера информация о градиенте от каждого клиента принимается, агрегируется и вычисляется перед передачей обратно соответствующим клиентам. Этот метод предполагает значительные вычислительные и коммуникационные затраты. Второй метод, напротив, не переобучает LLM с нуля, а использует существующие модели с открытым исходным кодом, выполняя тонкую настройку непосредственно на основе этих основополагающих моделей. Хотя первый метод может похвастаться превосходной потенциальной производительностью и поддерживает архитектуру настраиваемых моделей, второй снижает накладные расходы за счет некоторой адаптивности задач. Метод предварительной подготовки Federated LLM изображен на рисунке слева:

В сфере тонкой настройки Federated LLM суть заключается в решении проблем сотрудничества между различными клиентами. В документе представлены два метода тонкой настройки Federated LLM. Первый предполагает, что каждый клиент копирует предварительно обученную модель и проводит полную ее настройку. Второй метод сочетает в себе эффективную точную настройку параметров со структурой федеративного обучения, используя такие методы, как LoRA, для сокращения затрат на вычисления и связь, обеспечивая баланс между поддержанием производительности вычислений и сокращением накладных расходов. Общий метод изображен на рисунке справа.

Наконец, чтобы использовать технологию Prompt для улучшения контекстного обучения модели и ее способности решать сложные задачи, авторы предлагают метод Federated LLM Prompt Engineering. Это обеспечивает защиту конфиденциальности при создании подсказок для конфиденциальных данных. Как видно из следующего рисунка, параметры, передаваемые от клиента на сервер, относятся исключительно к взаимодействию между подсказкой и текстом, исключая любые внедрения входных функций. Кроме того, в рамках Federated Prompt Engineering авторы используют Soft Prompt (где Prompt работает внутри пространства встраивания модели). Мягкая подсказка легко согласуется с предпосылками федеративного обучения, повышая эффективность совместной работы федеративного обучения и крупных моделей.

Проблемы федеративного LLM

Текущее объединение федеративного обучения с большими моделями сталкивается с множеством проблем. В частности, авторы разделяют эти проблемы на четыре основные: угрозы безопасности и средства защиты, угрозы конфиденциальности и улучшения, проблемы эффективности и обработка ненезависимых и одинаково распределенных (не IID) данных.

Среди них угрозы безопасности в первую очередь относятся к потенциальным злоумышленникам, использующим уязвимости для нарушения политики безопасности и конфиденциальности системы. В рамках федеративной структуры обучения существуют такие методы атак, как атаки с отравлением и атаки с использованием состязательных образцов. Различные типы атак влияют на различные этапы обучения в рамках федеративного обучения.

Отравляющие атаки можно разделить на атаки с отравлением данных и атаки с отравлением модели. Атаки по отравлению данных происходят на начальном этапе сбора данных, когда злоумышленники вносят поврежденные образцы данных в объединенный набор данных. И наоборот, атаки с отравлением модели ставят под угрозу целостность модели, внедряя вредоносные параметры или градиенты в глобальную модель, затрудняя процесс обучения. Состязательные атаки на выборку преимущественно происходят на этапе вывода, где они направлены на обман хорошо обученной модели путем мельчайших изменений выборки, что приводит к ошибочным прогнозам. Эти методы атак широко распространены в архитектуре Transformer, а уровень их успеха в федеративных LLM заметно выше и более неуловим. Режим распределенного обучения федеративного обучения увеличивает вероятность утечки параметров модели, делая модель уязвимой для атак «белого ящика». Текущие меры противодействия этим угрозам безопасности включают, среди прочего, очистку данных, надежное агрегирование и состязательное обучение. Однако некоторые из этих мер иногда противоречат целям федеративного обучения, создавая проблемы при устранении угроз безопасности на практике.

Угрозы конфиденциальности в первую очередь подразумевают потенциальный вред, который несанкционированный доступ к конфиденциальной информации может нанести целям модели. Эти атаки на конфиденциальность направлены на получение частной информации и других преимуществ на различных этапах федеративного обучения. В основном они включают в себя примеры утечек конфиденциальной информации, генеративно-состязательные сетевые атаки, атаки на основе вывода и быстрые атаки, а также другие.

Федеративные программы LLM создают новые угрозы конфиденциальности. Например, студенты LLM могут непреднамеренно раскрыть некоторые данные обучения, такие как медицинские записи или данные банковского счета. Многочисленные исследования доказали, что большие модели могут генерировать конфиденциальную информацию, что приводит к нарушению конфиденциальности. Соответственно, методы повышения конфиденциальности, такие как гомоморфное шифрование, многосторонние безопасные вычисления и дифференциальная конфиденциальность, могут помочь смягчить угрозы конфиденциальности в федеративном обучении. Однако в контексте федеральных LLM величина параметров модели и глубина модели означают, что использование таких методов, как дифференциальная конфиденциальность, может привести к снижению производительности модели.

Еще одна серьезная проблема, с которой сталкиваются федеративные LLM, связана с накладными расходами на связь. Обновление и обмен градиентами между множеством устройств и серверов могут повлечь за собой существенные затраты на связь, продлевая время связи и препятствуя нормальному обучению федеративных LLM. На протяжении всего процесса обучения федеральных LLM можно использовать различные методы для оптимизации обучения моделей. Например, на этапе предварительного обучения можно использовать такие методы, как параллелизм моделей и конвейерный параллелизм, распределяя обширные параметры модели по нескольким графическим процессорам. Применяя передачу тензоров и передачу оптимизатора, можно уменьшить потребление памяти и ускорить обучение модели. Кроме того, данные, не относящиеся к IID, создают неизбежную проблему для обучения федеративному обучению, отрицательно влияя на скорость и точность конвергенции.

Подвести итоги

В этой статье представлен всесторонний обзор сочетания федеративного обучения и больших моделей. Описывая основополагающую структуру интеграции федеративного обучения с обучением на больших моделях на три ключевых компонента, в документе раскрываются преимущества федеративного LLM, одновременно подчеркивая новые проблемы, возникающие в результате «пересечения границ» между двумя областями. По мере развития технологии крупных моделей федеративные LLM неизбежно будут занимать все более важное место в повестке дня общественного внимания. Мы ожидаем более тщательных и углубленных усилий в этой области в будущем.