Регрессионный анализ — это набор статистических методов, используемых для оценки отношений между зависимой переменной и одной или несколькими независимыми переменными. Его можно использовать для оценки силы взаимосвязи между переменными и для моделирования будущих взаимосвязей между ними.
Регрессионный анализ включает несколько вариантов, таких как линейный, множественный линейный и нелинейный. Наиболее распространены простые линейные и многолинейные модели. Нелинейный регрессионный анализ обычно используется для более сложных наборов данных, в которых зависимые и независимые переменные демонстрируют нелинейную связь. Он помогает нам понять, как значение зависимой переменной изменяется в соответствии с независимой переменной, когда другие независимые переменные остаются фиксированными.
Что такое регрессия?
Регрессия — это контролируемый метод обучения, который помогает найти корреляцию между переменными и позволяет нам прогнозировать непрерывную выходную переменную на основе одной или нескольких переменных-предикторов. Он в основном используется для прогнозирования, прогнозирования, моделирования временных рядов и определения причинно-следственной связи между переменными.
Терминология, связанная с регрессионным анализом:
- Зависимая переменная. Главный фактор регрессионного анализа, который мы хотим предсказать или понять, называется зависимой переменной. Ее также называют целевой переменной.
- Независимая переменная. Факторы, влияющие на зависимые переменные или используемые для прогнозирования значений зависимых переменных, называются независимыми переменными, также называемыми предикторами.
- Выбросы. Выброс — это наблюдение, которое содержит либо очень низкое, либо очень высокое значение по сравнению с другими наблюдаемыми значениями. Выброс может исказить результат, поэтому его следует избегать.
- Мультиколлинеарность: Если независимые переменные сильно коррелируют друг с другом, чем с другими переменными, то такое состояние называется мультиколлинеарностью. Его не должно быть в наборе данных, потому что это создает проблемы при ранжировании наиболее влияющей переменной.
- Недообучение и переоснащение: если наш алгоритм хорошо работает с обучающим набором данных, но плохо работает с тестовым набором данных, то такая проблема называется Переобучение. И если наш алгоритм плохо работает даже с обучающим набором данных, то такая проблема называется недообучение.
Предположения регрессионного анализа:
Линейный регрессионный анализ основан на шести фундаментальных предположениях:
- Зависимые и независимые переменные показывают линейную зависимость между наклоном и точкой пересечения.
- Независимая переменная не случайна.
- Значение невязки (ошибки) равно нулю.
- Значение невязки (ошибки) постоянно во всех наблюдениях.
- Значение остатка (ошибки) не коррелирует между всеми наблюдениями.
- Остаточные значения (ошибки) подчиняются нормальному распределению.
Типы регрессии
Существуют различные типы регрессий, которые используются в науке о данных и машинном обучении. Каждый тип имеет свое значение в разных сценариях, но по сути все методы регрессии анализируют влияние независимой переменной на зависимые переменные. Здесь мы обсуждаем некоторые важные типы регрессии, которые приведены ниже:
- Линейная регрессия
- Логистическая регрессия
- Полиномиальная регрессия
- Регрессия опорных векторов
- Регрессия дерева решений
- Регрессия случайного леса
- Регрессия хребта
- Лассо-регрессия:
Линейная регрессия:
- Линейная регрессия — это метод статистической регрессии, который используется для прогнозного анализа.
- Это один из очень простых и легких алгоритмов, который работает с регрессией и показывает взаимосвязь между непрерывными переменными.
- Он используется для решения проблемы регрессии в машинном обучении.
- Линейная регрессия показывает линейную связь между независимой переменной (ось X) и зависимой переменной (ось Y), поэтому называется линейной регрессией.
- Если имеется только одна входная переменная (x), то такая линейная регрессия называется простой линейной регрессией. А если имеется более одной входной переменной, то такая линейная регрессия называется множественная линейная регрессия.
- Взаимосвязь между переменными в модели линейной регрессии можно объяснить с помощью изображения ниже. Здесь мы прогнозируем зарплату сотрудника на основе года опыта.
- Ниже приведено математическое уравнение для линейной регрессии:
Y = a + bX
Здесь
Y = зависимые переменные (целевые переменные),
X = независимые переменные (переменные-предикторы),
a и b — линейные коэффициенты
Некоторые популярные приложения линейной регрессии:
- Анализ тенденций и оценок продаж
- Прогнозирование заработной платы
- Прогноз недвижимости
- Прибытие в расчетное время прибытия в пробке.
Логистическая регрессия:
- Логистическая регрессия — это еще один алгоритм обучения с учителем, который используется для решения задач классификации. В задачах классификации у нас есть зависимые переменные в двоичном или дискретном формате, такие как 0 или 1.
- Алгоритм логистической регрессии работает с категориальной переменной, такой как 0 или 1, да или нет, правда или ложь, спам или не спам и т. д.
- Это алгоритм прогнозирующего анализа, который работает на концепции вероятности.
- Логистическая регрессия — это тип регрессии, но он отличается от алгоритма линейной регрессии тем, как они используются.
- Логистическая регрессия использует сигмоидальную функцию или логистическую функцию, которая является сложной функцией стоимости. Эта сигмовидная функция используется для моделирования данных в логистической регрессии. Функцию можно представить в виде:
Здесь,
- f(x)= вывод между значением 0 и 1.
- x= вход в функцию
- e= основание натурального логарифма.
Он использует концепцию пороговых уровней, значения выше порогового уровня округляются до 1, а значения ниже порогового уровня округляются до 0.
Существует три типа логистической регрессии:
- Двоичный (0/1, годен/не годен)
- Несколько (кошки, собаки, львы)
- Порядковый номер (низкий, средний, высокий)
Полиномиальная регрессия:
- Полиномиальная регрессия — это тип регрессии, который моделирует нелинейный набор данных с помощью линейной модели.
- Он похож на множественную линейную регрессию, но соответствует нелинейной кривой между значением x и соответствующими условными значениями y.
- Предположим, что есть набор данных, состоящий из точек данных, которые представлены нелинейным образом, поэтому в таком случае линейная регрессия не будет наилучшим образом соответствовать этим точкам данных. Чтобы охватить такие точки данных, нам нужна полиномиальная регрессия.
- В в полиномиальной регрессии исходные объекты преобразуются в полиномиальные объекты заданной степени, а затем моделируются с использованием линейной модели. Это означает, что точки данных лучше всего подходят с помощью полиномиальной линии.
- Уравнение для полиномиальной регрессии приведено ниже:
Y= b0+b1x+ b2x^2+ b3x^3+…..+ bnx^n.
- Здесь Y — прогнозируемый/целевой результат, b0, b1,… bn — коэффициенты регрессии. x — наша независимая/входная переменная.
- Модель по-прежнему линейна, поскольку коэффициенты по-прежнему линейны с квадратичными.
Опорная векторная регрессия:
Машина опорных векторов — это алгоритм обучения с учителем, который можно использовать как для регрессии, так и для задач классификации. Поэтому, если мы используем его для задач регрессии, то это называется регрессией опорных векторов.
Регрессия опорных векторов — это алгоритм регрессии, который работает с непрерывными переменными. Ниже приведены некоторые ключевые слова, которые используются в регрессии опорных векторов:
- Ядро: это функция, используемая для отображения низкоразмерных данных в высокоразмерные данные.
- Гиперплоскость. В общем случае SVM представляет собой разделительную линию между двумя классами, но в SVR это линия, которая помогает предсказать непрерывные переменные и покрыть большинство точек данных.
- Граница. Граничные линии — это две линии, кроме гиперплоскости, которые создают поле для точек данных.
- Опорные векторы. Опорные векторы — это точки данных, ближайшие к гиперплоскости и противоположному классу.
В SVR мы всегда пытаемся определить гиперплоскость с максимальным запасом, чтобы максимальное количество точек данных было покрыто этим запасом. Основная цель SVR – учесть максимальное количество точек данных в пределах граничных линий, а гиперплоскость (линия наилучшего соответствия) должна содержать максимальное количество точек данных. Рассмотрим изображение ниже:
Здесь зеленая линия называется гиперплоскостью, а две другие линии известны как граничные линии.
Регрессия хребта:
- Гребневая регрессия — одна из самых надежных версий линейной регрессии, в которой вводится небольшое смещение, чтобы мы могли получать более точные долгосрочные прогнозы.
- Величина смещения, добавляемая к модели, называется штрафом за регрессию хребта. Мы можем вычислить этот штрафной член, умножив лямбду на квадрат веса каждой отдельной функции.
- Уравнение гребневой регрессии будет таким:
- Общая линейная или полиномиальная регрессия потерпит неудачу, если существует высокая коллинеарность между независимыми переменными, поэтому для решения таких проблем можно использовать регрессию Риджа.
- Ридж-регрессия — это метод регуляризации, который используется для уменьшения сложности модели. Это также называется регуляризацией L2.
- Это помогает решить проблемы, если у нас больше параметров, чем образцов.
Лассо регрессия:
- Лассо-регрессия — еще один метод регуляризации для уменьшения сложности модели.
- Она аналогична хребтовой регрессии, за исключением того, что штрафной член содержит только абсолютные веса, а не квадрат весов.
- Поскольку он принимает абсолютные значения, следовательно, он может уменьшить наклон до 0, тогда как гребневая регрессия может уменьшить его только почти до 0.
- Это также называется регуляризацией L1. Уравнение для регрессии Лассо будет:
Регрессия дерева решений:
- Дерево решений — это алгоритм обучения с учителем, который можно использовать для решения задач как классификации, так и регрессии.
- Он может решать задачи как для категориальных, так и для числовых данных.
- Регрессия дерева решений строит древовидную структуру, в которой каждый внутренний узел представляет «тест» для атрибута, каждая ветвь представляет результат теста, а каждый конечный узел представляет окончательное решение или результат.
- Дерево решений строится, начиная с корневого узла/родительского узла (набора данных), который разбивается на левый и правый дочерние узлы (подмножества набора данных). Эти дочерние узлы далее делятся на свои дочерние узлы и сами становятся родительскими узлами этих узлов. Рассмотрим изображение ниже:
Регрессия случайного леса:
- Случайный лес — один из самых мощных алгоритмов обучения с учителем, способный выполнять как регрессионные, так и классификационные задачи.
- Регрессия случайного леса — это метод ансамблевого обучения, который объединяет несколько деревьев решений и предсказывает конечный результат на основе среднего значения каждого дерева. Комбинированные деревья решений называются базовыми моделями, и их можно представить более формально как:
g(x)= f0(x)+ f1(x)+ f2(x)+....
- Случайный лес использует метод ансамблевого обучения Bagging или Bootstrap Aggregation, в котором агрегированное дерево решений работает параллельно и не взаимодействует друг с другом.
- С помощью регрессии случайного леса мы можем предотвратить переобучение в модели, создавая случайные подмножества набора данных.