Что такое предвзятость и дисперсия в машинном обучении?

Давайте углубимся, чтобы понять предвзятость и дисперсию, а также недообучение и переобучение.

Машинное обучение является подмножеством искусственного интеллекта и быстро развивается в различных областях. Машинное обучение учится на данных, поступающих в его модель, что помогает ему со временем делать более точные прогнозы. Модели машинного обучения требуют разнообразных и огромных объемов данных, чтобы делать значимые прогнозы.

Из-за огромного размера и реальных ограничений всегда будут ошибки, что приводит к отклонению между прогнозируемыми и фактическими результатами. Основная цель специалистов по данным — свести к минимуму ошибки, чтобы делать более точные прогнозы.

Ошибки машинного обучения:

В ML есть два типа ошибок:

Устранимая ошибка №1:

Смещение и дисперсия, присутствующие в наборе данных, называются уменьшаемыми ошибками, поскольку их можно корректировать, настраивать и корректировать в определенной степени для повышения точности модели.

Неисправимая ошибка № 2:

Есть некоторые ошибки, которые всегда будут присутствовать в наборе данных, независимо от того, что вы делаете. Например, могут быть неизвестные переменные, значение которых нельзя изменить или уменьшить.

Неустранимые ошибки нельзя изменить, и специалистам по данным необходимо обойти это ограничение.

Предвзятость:

Смещение относится к разнице между средним прогнозируемым значением и ожидаемым значением. Под высоким смещением понимается явление, когда модель чрезмерно упрощена, модель ML не может определить истинную связь или доминирующий шаблон в наборе данных.

Каждая модель имеет встроенную предвзятость, так как она помогает модели учиться быстрее и проще. Высокое смещение приводит к недообучению модели.

Линейные алгоритмы, как правило, имеют высокое смещение, что позволяет им быстро обучаться. В то время как нелинейные алгоритмы имеют меньшее смещение, поскольку они более сложны, чем линейные модели. Проще говоря, чем проще алгоритм, тем больше смещения в модели.

Ниже приведены характеристики модели данных с высокой предвзятостью.

# 1 Невозможно уловить тенденции

# 2 Высокая частота ошибок

# 3 Недооснащение

# 4 Сверхупрощенная/сверхобобщенная модель

Дисперсия:

Дисперсия измеряет изменение значения / вывода, если использовался новый другой набор обучающих данных. В идеальной ситуации модель не должна отличаться для разных обучающих наборов данных. Дисперсия проявляется, когда специалисты по данным используют сложные модели с множеством функций.

Высокая дисперсия вызывает переоснащение, которое захватывает больше точек данных, чем требуется, вместе с шумом. Принимая во внимание, что модель с низкой дисперсией имеет минимальную разницу между выборочной моделью и прогнозируемой моделью.

Модель с высокой дисперсией хорошо работает с обучающим набором данных, но не работает в соответствии с ожиданиями, когда предоставляется невидимые данные.

Модель линейной регрессии и логистической регрессии имеет низкую дисперсию, тогда как деревья решений, машины опорных векторов и k ближайших соседей имеют встроенную высокую дисперсию.

Характеристики модели высокой дисперсии

№1 Высокая сложность

#2 Сопоставляет все точки данных близко друг к другу

# 3 Переоснащение

#4 Шум в наборе данных

Недообучение и переоснащение:

Теперь, когда мы разобрались с предвзятостью и дисперсией, давайте разберемся, что такое переоснащение и недообучение.

Переоснащение и недообучение — две проблемы, с которыми сталкивается каждая модель машинного обучения. Оптимальная модель машинного обучения должна быть способна адаптироваться ко всем неизвестным входным данным и каждый раз обеспечивать надежный результат.

Переоснащение

Переобучение относится к ситуации, когда специалисты по данным обучают модель машинного обучения на большом количестве данных. Метафорически подумайте о стройном человеке, одетом в свободную негабаритную одежду!

Когда модель обучается на больших данных, она начинает охватывать больше точек данных, чем требуется, и в этом процессе она также начинает интегрировать шум и неточные значения.

Переобученная модель имеет высокую дисперсию и низкое смещение. Алгоритмы обучения с учителем постоянно страдают от переобучения.

Что вызывает переобучение:

Ниже приведены некоторые из упомянутых причин, вызывающих переоснащение.

# 1 Высокая дисперсия в модели машинного обучения

#2 Высокая сложность модели

#3 Использование нечистых и неструктурированных данных

# 4 Неправильный набор обучающих данных

Как исправить переобучение

# 1 Обучите модель с адекватными данными

# 2 Внедрение методов регуляризации

# 3 Применить перекрестную проверку K Fold

# 4 Удаление функций

5. Методы сборки

Недооснащение:

Недообучение — это явление, которое происходит, когда модель ML не может определить тенденции данных.

Образно говоря, подумайте о здоровом человеке, пытающемся влезть в платье маленького размера.

Модель не может учиться на данных обучения, чтобы делать надежные и точные прогнозы. Это происходит из-за высокого смещения и низкой дисперсии

Что вызывает недообученность:

# Высокое смещение и низкая дисперсия в наборе данных

# 2 Упрощенная модель, используемая для прогнозирования

# 3 Нечистые данные, используемые для прогнозирования

#4 Недостаточный размер обучающего набора данных

Как исправить недостаточное соответствие

#1 Сделайте модель более сложной

# 2 Увеличьте возможности и продолжительность набора обучающих данных

# 3 Удалите шум из набора данных

Хорошее соответствие:

Идеальная ситуация — это когда прогнозируемые значения совпадают с фактическими значениями в наборе данных и не регистрируют ошибок. Однако в реальной жизни добиться этого невозможно. Оптимальное решение — найти срединный путь, который поможет получить желаемый результат.

Благодаря непрерывному обучению модели ошибки в наборе обучающих данных со временем уменьшаются. То же самое происходит с тестовым набором данных. Если вы продолжите тестирование обучающего набора данных, он в конечном итоге также начнет захватывать шум и приведет к переоснащению.

Мы должны быть бдительны и следить за поворотной точкой, где ошибки начинают увеличиваться. В этот момент нам нужно остановить тренировку. Предполагается, что эта обученная модель хорошо подходит и может делать достоверные прогнозы.