Глава 3 Компромисс смещения и отклонения в машинном обучении

Серия машинного обучения !!!

Привет, народ, еще раз! Я публикую удивительную и неоднозначную тему машинного обучения для начинающих специалистов по анализу данных, поэтому в этой статье я ясно дал понять, что такое предвзятость, а что такое дисперсия. прочитав это, вы сможете понять, что такое предвзятость и дисперсия, и где они могут быть полезны. Итак, приступим ...

Контур

Что такое определение смещения и отклонения?
Ошибка смещения в примере
Ошибка расхождения с примером
Чрезмерная и недостаточная посадка
Общая картина смещения и отклонения.

1.Что такое определение смещения и отклонения?

В статистике смещение и дисперсия - это свойство модели прогнозирования, а машинное обучение рассчитывается для алгоритма машинного обучения с надзором.

Этот рисунок должен быть отличным способом объяснить отклонение от систематической ошибки для 5-летнего ребенка.

Для группы умных людей с базовым пониманием моделирования, статистики и машинного обучения давайте посмотрим немного глубже.

ошибка (X) = шум (X) + смещение (X) 2+ дисперсия (X)

Предвзятость: высокая ошибка из-за допущений.
Дисперсия: ошибка из-за чрезмерной сложности, которая пытается как можно точнее подогнать обучающие данные.
Компромисс: баланс между двумя желательными, но несовместимыми функциями; компромисс.

2. ошибка смещения с примером

Примечание. Смещение приводит к занижению данных. Сильное смещение означает, что в нашем алгоритме обучения отсутствуют важные тенденции среди функций.

Просто смещение - это разница между прогнозируемым значением и фактическим значением, отличным от данных обучения, на которых мы обучаем модель машинного обучения. Смещение - это упрощающие допущения, сделанные моделью для облегчения изучения целевой функции.

Смещение (X) = E [f ^ (x)] - f (x)

Алгоритмы с высоким смещением легче изучать, но они менее гибкие, из-за чего они имеют более низкую эффективность прогнозирования сложных проблем. Линейные алгоритмы и чрезмерно упрощенная модель приводят к высокому смещению в модели. Давайте посмотрим ниже таблицу смещения, чтобы сделать более ясную картину.

Примеры алгоритмов машинного обучения с низким смещением: деревья решений, k-ближайших соседей и машины опорных векторов.

Примеры алгоритмов машинного обучения с высоким смещением: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.

3. Ошибка отклонения с примером

Просто дисперсия - это когда ваши данные обучения изменяются, ваша модель дает другой результат, и этот результат, отличный от первого результата, имеет вариацию. Оценка целевой функции изменится, если использовались разные обучающие данные.

Var (X) = E [(f ^ (x) −E [f ^ (x)]) 2]

Как правило, непараметрические алгоритмы машинного обучения, которые обладают большой гибкостью, имеют высокую дисперсию. Например, деревья решений имеют высокую дисперсию, которая даже выше, если деревья не обрезаны перед использованием.

Примеры алгоритмов машинного обучения с низкой дисперсией: линейная регрессия, линейный дискриминантный анализ и логистическая регрессия.

Примеры алгоритмов машинного обучения с высокой дисперсией: деревья решений, k-ближайших соседей и машины опорных векторов.

4. Простое определение Переобучение и недообучение

Переоснащение: хорошая производительность по обучающим данным, плохой результат при предоставлении других данных.
Недостаточная подгонка: низкая производительность по обучающим данным и плохой результат при предоставлении других данных. .

Подробно о переоборудовании и неполном оснащении я пошел писать статью дальше. Теперь поймите это основное определение.

4.1 Характер проблемы

Когда меняется характер проблемы, меняется и компромисс.

правда неровная, а шум сильный, поэтому квадратичная подойдет лучше всего

правда более гладкая, поэтому линейная модель действительно хороша

правда неровная и шум тихий, поэтому более гибкий будет лучше

5. Общая картина предвзятости и дисперсии.

На картинке написано более тысячи слов, см. Картинку ниже, и вы понимаете, какова общая картина. Хорошая картина, созданная элитными специалистами в области науки о данных, прилагается к этой статье.

Ссылки: