Давайте углубимся, чтобы понять предвзятость и дисперсию, а также недообучение и переобучение.
Машинное обучение является подмножеством искусственного интеллекта и быстро развивается в различных областях. Машинное обучение учится на данных, поступающих в его модель, что помогает ему со временем делать более точные прогнозы. Модели машинного обучения требуют разнообразных и огромных объемов данных, чтобы делать значимые прогнозы.
Из-за огромного размера и реальных ограничений всегда будут ошибки, что приводит к отклонению между прогнозируемыми и фактическими результатами. Основная цель специалистов по данным — свести к минимуму ошибки, чтобы делать более точные прогнозы.
Ошибки машинного обучения:
В ML есть два типа ошибок:
Устранимая ошибка №1:
Смещение и дисперсия, присутствующие в наборе данных, называются уменьшаемыми ошибками, поскольку их можно корректировать, настраивать и корректировать в определенной степени для повышения точности модели.
Неисправимая ошибка № 2:
Есть некоторые ошибки, которые всегда будут присутствовать в наборе данных, независимо от того, что вы делаете. Например, могут быть неизвестные переменные, значение которых нельзя изменить или уменьшить.
Неустранимые ошибки нельзя изменить, и специалистам по данным необходимо обойти это ограничение.
Предвзятость:
Смещение относится к разнице между средним прогнозируемым значением и ожидаемым значением. Под высоким смещением понимается явление, когда модель чрезмерно упрощена, модель ML не может определить истинную связь или доминирующий шаблон в наборе данных.
Каждая модель имеет встроенную предвзятость, так как она помогает модели учиться быстрее и проще. Высокое смещение приводит к недообучению модели.
Линейные алгоритмы, как правило, имеют высокое смещение, что позволяет им быстро обучаться. В то время как нелинейные алгоритмы имеют меньшее смещение, поскольку они более сложны, чем линейные модели. Проще говоря, чем проще алгоритм, тем больше смещения в модели.
Ниже приведены характеристики модели данных с высокой предвзятостью.
# 1 Невозможно уловить тенденции
# 2 Высокая частота ошибок
# 3 Недооснащение
# 4 Сверхупрощенная/сверхобобщенная модель
Дисперсия:
Дисперсия измеряет изменение значения / вывода, если использовался новый другой набор обучающих данных. В идеальной ситуации модель не должна отличаться для разных обучающих наборов данных. Дисперсия проявляется, когда специалисты по данным используют сложные модели с множеством функций.
Высокая дисперсия вызывает переоснащение, которое захватывает больше точек данных, чем требуется, вместе с шумом. Принимая во внимание, что модель с низкой дисперсией имеет минимальную разницу между выборочной моделью и прогнозируемой моделью.
Модель с высокой дисперсией хорошо работает с обучающим набором данных, но не работает в соответствии с ожиданиями, когда предоставляется невидимые данные.
Модель линейной регрессии и логистической регрессии имеет низкую дисперсию, тогда как деревья решений, машины опорных векторов и k ближайших соседей имеют встроенную высокую дисперсию.
Характеристики модели высокой дисперсии
№1 Высокая сложность
#2 Сопоставляет все точки данных близко друг к другу
# 3 Переоснащение
#4 Шум в наборе данных
Недообучение и переоснащение:
Теперь, когда мы разобрались с предвзятостью и дисперсией, давайте разберемся, что такое переоснащение и недообучение.
Переоснащение и недообучение — две проблемы, с которыми сталкивается каждая модель машинного обучения. Оптимальная модель машинного обучения должна быть способна адаптироваться ко всем неизвестным входным данным и каждый раз обеспечивать надежный результат.
Переоснащение
Переобучение относится к ситуации, когда специалисты по данным обучают модель машинного обучения на большом количестве данных. Метафорически подумайте о стройном человеке, одетом в свободную негабаритную одежду!
Когда модель обучается на больших данных, она начинает охватывать больше точек данных, чем требуется, и в этом процессе она также начинает интегрировать шум и неточные значения.
Переобученная модель имеет высокую дисперсию и низкое смещение. Алгоритмы обучения с учителем постоянно страдают от переобучения.
.
Что вызывает переобучение:
Ниже приведены некоторые из упомянутых причин, вызывающих переоснащение.
# 1 Высокая дисперсия в модели машинного обучения
#2 Высокая сложность модели
#3 Использование нечистых и неструктурированных данных
# 4 Неправильный набор обучающих данных
Как исправить переобучение
# 1 Обучите модель с адекватными данными
# 2 Внедрение методов регуляризации
# 3 Применить перекрестную проверку K Fold
# 4 Удаление функций
5. Методы сборки
Недооснащение:
Недообучение — это явление, которое происходит, когда модель ML не может определить тенденции данных.
Образно говоря, подумайте о здоровом человеке, пытающемся влезть в платье маленького размера.
Модель не может учиться на данных обучения, чтобы делать надежные и точные прогнозы. Это происходит из-за высокого смещения и низкой дисперсии
Что вызывает недообученность:
# Высокое смещение и низкая дисперсия в наборе данных
# 2 Упрощенная модель, используемая для прогнозирования
# 3 Нечистые данные, используемые для прогнозирования
#4 Недостаточный размер обучающего набора данных
Как исправить недостаточное соответствие
#1 Сделайте модель более сложной
# 2 Увеличьте возможности и продолжительность набора обучающих данных
# 3 Удалите шум из набора данных
Хорошее соответствие:
Идеальная ситуация — это когда прогнозируемые значения совпадают с фактическими значениями в наборе данных и не регистрируют ошибок. Однако в реальной жизни добиться этого невозможно. Оптимальное решение — найти срединный путь, который поможет получить желаемый результат.
Благодаря непрерывному обучению модели ошибки в наборе обучающих данных со временем уменьшаются. То же самое происходит с тестовым набором данных. Если вы продолжите тестирование обучающего набора данных, он в конечном итоге также начнет захватывать шум и приведет к переоснащению.
Мы должны быть бдительны и следить за поворотной точкой, где ошибки начинают увеличиваться. В этот момент нам нужно остановить тренировку. Предполагается, что эта обученная модель хорошо подходит и может делать достоверные прогнозы.