Компании, нанимающие специалистов по машинному обучению, действительно обеспокоены двумя вещами.

Скучный вопрос: разбираетесь ли вы в технологиях хранения данных, которые использует компания?

Это может оказаться непростой задачей для новичков, так как стать профессионалом в области Azure Data Bricks, имея в качестве студента лишь лицензию Microsoft Office, может оказаться довольно крутым этапом обучения.

Второй вопрос:

Можете ли вы построить надежные модели и правильно использовать свои данные? Прежде всего, можете ли вы построить модели, которые хорошо обобщают и делают их максимально простыми?

Как видите, на самом деле это не просто два вопроса, второй может быть весьма нагруженным вопросом. Правда в том, что ни один студент не хочет слышать, что вы (инженер ML) настолько хороши, насколько хороши ваши данные. Это означает, что инженер данных — ваш лучший друг.

Судя по моему опыту и чтению, задачи, которые раньше требовали сложных моделей, приводящих к запутанным правилам, которые часто сложно объяснить или понять, редко становятся необходимыми, если вы получаете доступ к достаточно большому массиву данных. Путем разумного устранения выбросов (поскольку не все выбросы вредны — некоторые из них могут быть весьма информативными точками данных) и точной обработки недостающих данных, включая случаи полного отсутствия данных в случайном порядке (MCAR). , Пропущено случайно (MAR) и Пропущено не случайно (MNAR), вы можете значительно упростить требования к модели.

После улучшения источников данных и проявления терпения во время предварительной обработки возникает переход к сегодняшнему фокусу: какой алгоритм мне следует применить к этим высококачественным данным? Со временем, как инженер ML, вы, естественно, разовьете предвзятость к одним традиционным моделям ML по сравнению с другими, поскольку вы станете более привыкать к их конкретным требованиям к данным и нюансам настройки гиперпараметров. Если это действительно так и мы нуждаемся в надежной «рабочей» модели, то встает непосредственный вопрос: как ее выбрать, если вы еще этого не сделали?

Прежде чем потерять ваше ценное внимание, позвольте мне объявить о моем выборе: машины опорных векторов (SVM). В следующих параграфах я изложу свое обоснование выбора SVM и постараюсь либо убедить вас согласиться со мной, в идеале, либо, по крайней мере, побудить вас обдумать основные критерии, которые должна охватывать ваша «ориентированная» модель.

Во-первых, SVM были тщательно исследованы

с момента их введенияв качестве классификаторов с максимальным запасом в 1963 году. Со временем они превратились в более адаптируемый и обобщаемый алгоритм, позволяющий делать неверные прогнозы на этапе обучения в целях улучшения обобщения. Это улучшение направлено на установление более значимой разницы, эффективно разделяя два класса, игнорируя при этом (или не чувствуя к ним) определенные точки данных.

Вы найдете людей, решающих проблемы, аналогичные вашей, с помощью SVM. Я использовал SVM для анализа данных временных рядов для диагностики болезни Паркинсона, анализа настроений НЛП, оптического распознавания символов (OCR), многих задач регрессии и классификации. Если традиционная модель машинного обучения может это сделать, SVM тоже могут это сделать, а с настройкой и терпеливым выбором ядра она может сделать это лучше.

Во-вторых, SVM демонстрируют удивительную универсальность.

Они превосходно работают не только с линейными, но и с нелинейными данными благодаря своей способности преобразовывать данные в более высокие измерения, где может быть достигнута линейность. Они могут обрабатывать самые разные типы данных, включая тексты и изображения.

Поразительно, но это, похоже, не ставит под угрозу их производительность. Естественно, я призываю вас подтвердить это утверждение, поэкспериментировав с SVM на своих ноутбуках и изучив литературу. При использовании SVM ключевой момент заключается в точной настройке алгоритма, чтобы предотвратить переобучение. Это включает в себя гипернастройку параметра C (параметра регуляризации), чтобы гарантировать, что запас не будет чрезмерно адаптирован к этапу обучения. Эта тщательная калибровка необходима для оптимизации производительности SVM.

В-третьих, их производительность не снижается так сильно, если ваши данные имеют много измерений.

Дажедаже если количество измерений превышает обучающую выборку. Однако крайне важно не интерпретировать это как повод пренебрегать задачей снижения мультиколлинеарности. После адресации это дает SVM явное преимущество перед моделями, основанными на расчетах расстояний. Например, попытка вычислить расстояния в 4000-мерном пространстве не является здравой идеей, поскольку в пространстве, имеющем 4000 измерений, нет точек, расположенных близко друг к другу.

В-четвертых, SVM быстро достигают обобщаемой прибыли

С относительно меньшим количеством выборок данных, несбалансированными классами и устойчивостью к выбросам. Это означает, что вы можете уйти (хотя и ненадолго) без решения проблем дисбаланса, используя такие методы, как недостаточная выборка, передискретизация и, что самое интересное из всех, увеличение данных. Вы также можете быть уверены, что на ваш алгоритм не будут сильно влиять выбросы. Это позволит вам использовать максимально возможный объем вашего корпуса данных и не удалять слишком много строк.

Так что же это значит? Бросить все и использовать SVM? Конечно, нет, вместо этого я предлагаю вам быстро настроить модель SVM в качестве ориентира для дальнейшего продвижения, особенно при переходе к ансамблевым методам и методам глубокого обучения. Используйте тест SVM, чтобы убедиться, что потери производительности, связанные с глубоким обучением, или потери объяснимости из-за как глубокого обучения, так и ансамблевых методов того стоят.

Для полноты в теоремах без бесплатного обеда говорится, что не существует априорного превосходства какой-либо системы классификаторов над другими, поэтому лучший классификатор для конкретной задачи сам по себе зависит от задачи (продолжайте это в виду). Однако существует более убедительная теория SVM, которая предполагает, что для многих проблем он, вероятно, будет лучшим выбором, чем многие другие подходы. Мне очень приятно узнать, к какому лагерю вы присоединитесь по мере развития своей карьеры.