CRISP-DM, этап 4: этап моделирования

Это пятая часть серии из семи частей, посвященных 6-недельному курсу OpenSAP Начало работы с наукой о данных (издание 2021 г.) от Stuart Clarke. Часть 4 находится здесь.

Резюме части 4

В четвертой части этой серии я объяснил, почему подготовка данных является важной частью проекта по науке о данных, кратко рассказал, как подготовить данные, и предоставил дополнительные ресурсы с кодами в некоторых из наиболее общие методы подготовки данных в полевых условиях.

Существует шесть фаз CRISP-DM с конкретными задачами и результатами:

Шесть этапов CRISP-DM:

  1. Понимание бизнеса
  2. Понимание данных
  3. Подготовка данных
  4. Моделирование
  5. Оценка
  6. Развертывание

В этой статье мы сосредоточимся на четвертом этапе — моделировании данных. После всей очистки, форматирования, разработки функций (при необходимости) и выбора функций мы теперь передадим данные в выбранную модель. Но как выбрать модель для использования?

Примечание.Я лишь кратко расскажу, как выбрать модель и какие модели можно использовать. Я не буду рассказывать о каждой модели и о том, как она работает под капотом. Чтобы узнать больше о каждом типе моделей и о том, как они работают, вы можете записаться здесь: 6-недельный курс OpenSAP Начало работы с наукой о данных (выпуск 2021).

Как выбрать модель?

ЗАВИСИТ. Вы правильно прочитали, это зависит. Все зависит от того, какова цель вашей задачи или проекта, и это уже должно быть определено на этапе Бизнес-понимание CRISP-DM.

Этапы выбора модели

  1. Определить размер обучающих данных. Если у вас небольшой набор данных, меньшее количество наблюдений, большое количество функций, вы можете выбрать алгоритмы с высоким смещением/низкой дисперсией (линейная регрессия, наивный байесовский, линейный SVM). Если ваш набор данных большой и имеет большое количество наблюдений по сравнению с количеством признаков, вы можете выбрать алгоритмы с низким смещением/высокой дисперсией (KNN, деревья решений).
  2. Точность и/или интерпретируемость выходных данных. Если вашей целью является вывод, выберите ограничительные модели, так как они более интерпретируемы (линейная регрессия, метод наименьших квадратов). Если вашей целью является более высокая точность, выберите гибкие модели (Bagging, Boosting, SVM).
  3. Скорость или время обучения. Всегда помните, что более высокая точность, а также большие наборы данных означают большее время обучения. Примеры простых в использовании и реализации алгоритмов: Наивная байесовская, линейная и логистическая регрессия. Некоторыепримерыалгоритмов, для обучения которых требуется больше времени: SVM, нейронные сети и случайные леса.
  4. Линейность — попробуйте сначала проверить линейность ваших данных, подогнав линейную линию или запустив логистическую регрессию. Вы также можете проверить их остаточные ошибки. Более высокие ошибки означают, что данные нелинейны и для их соответствия требуются сложные алгоритмы. Если данные являются линейными, вы можете выбрать: Линейная регрессия, Логистическая регрессия, Методы опорных векторов. Если нелинейный: ядро SVM, случайный лес, нейронные сети.

Параметрические и непараметрические модели машинного обучения

Алгоритмы параметрического машинного обучения

Параметрические алгоритмы машинного обучения — это алгоритмы, которые упрощают функцию до известной формы. Их часто называют «линейными алгоритмами машинного обучения».

Параметрические алгоритмы машинного обучения

  • Логистическая регрессия
  • Линейный дискриминантный анализ
  • Персептрон
  • Наивный байесовский
  • Простые нейронные сети

Преимущества алгоритмов параметрического машинного обучения

  • Проще — простые для понимания методы и простые для интерпретации результаты.
  • Скорость — очень быстро учится на предоставленных данных.
  • Меньше данных — не требуется столько обучающих данных.

Ограничения алгоритмов параметрического машинного обучения

  • Ограниченная сложность — подходит только для более простых задач.
  • Плохое соответствие – маловероятно, что методы будут соответствовать базовой функции сопоставления.

Непараметрические алгоритмы машинного обучения

Непараметрические алгоритмы машинного обучения — это алгоритмы, не делающие предположений о форме функций отображения. Его хорошо использовать, когда у вас много данных и нет предварительных знаний, и вы не хотите слишком беспокоиться о выборе правильных функций.

Непараметрические алгоритмы машинного обучения

  • K-ближайшие соседи (KNN)
  • Деревья решений, такие как CART
  • Методы опорных векторов (SVM)

Преимущества непараметрических алгоритмов машинного обучения

  • Гибкость — он может соответствовать большому количеству функциональных форм.
  • Мощность — не предполагайте основную функцию.
  • Производительность – позволяет создавать модели с более высокой производительностью для прогнозов.

Ограничения непараметрических алгоритмов машинного обучения

  • Необходимо больше данных — требуется большой набор обучающих данных.
  • Медленная обработкау них часто больше параметров, что означает, что время обучения намного больше.
  • Переобучение – более высокий риск переобучения данных обучения и результатов, которые сложнее объяснить, почему были сделаны конкретные прогнозы.

Разбивка

В ходе курса Стюарт подробно разбил задачи и результаты четвертого этапа. *см. ниже

В приведенном выше потоке процессов моделирование данных разбито на четыре задачи вместе с их прогнозируемым результатом или выходом в деталях.

Проще говоря, цель этапа моделирования данных состоит в том, чтобы:

  • Выберите метод моделирования, выбрав фактический метод моделирования, который будет использоваться. Это уже должно быть определено на этапе Бизнес-понимание. Не забудьте задокументировать метод моделирования, который будет использоваться, и другие модели, которые будут использоваться.
  • Создайте схему тестированияпутем создания процедуры для проверки качества и достоверности модели. Здесь вы сможете описать предполагаемый план обучения, тестирования и способы оценки моделей.
  • Построить модель, запустив модель с использованием подготовленного набора данных. После того, как модель была протестирована для запуска, перечислите параметры и их выбранное значение, а также обоснование выбора настройки параметров, поскольку вы не хотите запускать уже запущенную модель снова и снова только потому, что вы забыли, какие исходные параметры использовались. .
  • Оцените модельпутем интерпретации моделей в соответствии с критериями знания предметной области и науки о данных. На этом этапе вам нужно будет обобщить результаты сгенерированных моделей и ранжировать их качество по отношению друг к другу. Оцените показатели производительности модели, графики и матрицу путаницы.

В следующей части мы поговорим о пятом этапе, который называется Этап оценки. Если вы работаете над проектом по обработке и анализу данных для своей компании или даже над личным проектом/проектами, попробуйте применить описанные выше шаги, если это применимо. Опять же, разные проекты по науке о данных имеют разные наборы требований. Методология CRISP-DM просто служит шаблоном, чтобы гарантировать, что вы рассмотрели все различные аспекты, характерные для вашего проекта.

Ссылки: