Быстрая разработка: не устаревает ли предыдущий опыт машинного обучения? Не так быстро.

На днях я встретил разработчика программного обеспечения, который спросил, не будет ли хорошей инвестицией стать быстрым инженером-экспертом. Я выразил некоторые опасения по поводу такого плана. Было бы гораздо разумнее и безопаснее ознакомиться с машинным обучением в целом, поскольку эти концепции охватывают гораздо более широкий спектр проблем, включая оперативное проектирование. И никогда еще не было так легко начать со всеми моделями Hugging Face и другими интересными продуктами.

Кажется, он мне не поверил. С тех пор я слышал, как несколько других людей задавались вопросом: «Устаревает ли предыдущий опыт машинного обучения? Разве я не могу быть просто системным инженером?»

Да, ты можешь. Но …

Я внимательно изучил несколько распространенных проблем, с которыми сталкиваются инженеры при работе с большими языковыми моделями, и заметил, что они на самом деле хорошо знакомы традиционным практикам машинного обучения:

  1. Галлюцинации – Модель выдумывает информацию здесь и там.
    Иногда бывает так, что модель обнаруживает, что определенные выходные данные с наибольшей вероятностью появятся в определенных ситуациях с учетом обучения и вводных данных. data.
    Пример: вы случайно обучаете языковую модель системы распознавания речи на текстах, содержащих много ненормативной лексики. Это приведет к тому, что несколько ненормативной лексики появятся здесь и там в выходной расшифровке, хотя говорящий ничего подобного не сказал. Но модель услышала это там!
  2. Пропуск фактов. Модель иногда не говорит «все».
    Со времен RNN (рекуррентных нейронных сетей) у языковых моделей были проблемы с точными данными. Память. Модель может прочитать текст, документ или подсказку и забыть о некоторых частях. Затем он пропускает эти части при создании сводки или другого вида вывода.
  3. (Не) Следование инструкциям — Модель не делает того, что вы просили.
    Технически это то же самое, что и пропуск фактов — память модели просто не не работает должным образом и "забыл" о некоторых инструкциях.
  4. Длина контекста — максимальное количество слов, которое модель может принять на вход.
    Это та же самая проблема, с которой сталкиваются все модели нейронных сетей, будь то распознавание речи (а несколько секунд), перевод (несколько слов) или обработка изображения (несколько пикселей). Мы живем в физическом мире, где все конечно.
  5. Подсказка против точной настройки – подсказка вместо обучения на примерах.
    Каждый может придумывать подсказки, но во многих случаях наилучшие результаты могут быть достигнуты с помощью просто показать модели несколько пар ввода-вывода, прежде чем запустить ее в производство — это буквально обучающий набор данных. Он есть в каждом стандартном проекте машинного обучения. Вот почему это называется машинным «обучением».

Это могут быть только простые примеры, но этот список можно продолжать и продолжать.

Изучайте машинное обучение, а не инжиниринг

Инженеры по машинному обучению и исследователи хорошо знакомы со многими распространенными концепциями оперативной инженерии. Они нарастили свои «мозговые мышцы» годами практики. Поэтому, если вы планируете стать опытным инженером-экспертом, рассмотрите возможность изучения более широкого контекста машинного обучения, чтобы получить преимущество перед другими людьми на рынке.

Вы согласны? Вы не согласны? Дай мне знать в комментариях!