Введение в регрессионный анализ

Регрессионный анализ — это набор статистических методов, используемых для оценки отношений между зависимой переменной и одной или несколькими независимыми переменными. Его можно использовать для оценки силы взаимосвязи между переменными и для моделирования будущих взаимосвязей между ними.

Регрессионный анализ включает несколько вариантов, таких как линейный, множественный линейный и нелинейный. Наиболее распространены простые линейные и многолинейные модели. Нелинейный регрессионный анализ обычно используется для более сложных наборов данных, в которых зависимые и независимые переменные демонстрируют нелинейную связь. Он помогает нам понять, как значение зависимой переменной изменяется в соответствии с независимой переменной, когда другие независимые переменные остаются фиксированными.

Что такое регрессия?

Регрессия — это контролируемый метод обучения, который помогает найти корреляцию между переменными и позволяет нам прогнозировать непрерывную выходную переменную на основе одной или нескольких переменных-предикторов. Он в основном используется для прогнозирования, прогнозирования, моделирования временных рядов и определения причинно-следственной связи между переменными.

Терминология, связанная с регрессионным анализом:

Зависимая переменная. Главный фактор регрессионного анализа, который мы хотим предсказать или понять, называется зависимой переменной. Ее также называют целевой переменной.
Независимая переменная. Факторы, влияющие на зависимые переменные или используемые для прогнозирования значений зависимых переменных, называются независимыми переменными, также называемыми предикторами.
Выбросы. Выброс — это наблюдение, которое содержит либо очень низкое, либо очень высокое значение по сравнению с другими наблюдаемыми значениями. Выброс может исказить результат, поэтому его следует избегать.
Мультиколлинеарность: Если независимые переменные сильно коррелируют друг с другом, чем с другими переменными, то такое состояние называется мультиколлинеарностью. Его не должно быть в наборе данных, потому что это создает проблемы при ранжировании наиболее влияющей переменной.
Недообучение и переоснащение: если наш алгоритм хорошо работает с обучающим набором данных, но плохо работает с тестовым набором данных, то такая проблема называется Переобучение. И если наш алгоритм плохо работает даже с обучающим набором данных, то такая проблема называется недообучение.

Предположения регрессионного анализа:

Линейный регрессионный анализ основан на шести фундаментальных предположениях:

Зависимые и независимые переменные показывают линейную зависимость между наклоном и точкой пересечения.
Независимая переменная не случайна.
Значение невязки (ошибки) равно нулю.
Значение невязки (ошибки) постоянно во всех наблюдениях.
Значение остатка (ошибки) не коррелирует между всеми наблюдениями.
Остаточные значения (ошибки) подчиняются нормальному распределению.

Типы регрессии

Существуют различные типы регрессий, которые используются в науке о данных и машинном обучении. Каждый тип имеет свое значение в разных сценариях, но по сути все методы регрессии анализируют влияние независимой переменной на зависимые переменные. Здесь мы обсуждаем некоторые важные типы регрессии, которые приведены ниже:

Линейная регрессия
Логистическая регрессия
Полиномиальная регрессия
Регрессия опорных векторов
Регрессия дерева решений
Регрессия случайного леса
Регрессия хребта
Лассо-регрессия:

Линейная регрессия:

Линейная регрессия — это метод статистической регрессии, который используется для прогнозного анализа.
Это один из очень простых и легких алгоритмов, который работает с регрессией и показывает взаимосвязь между непрерывными переменными.
Он используется для решения проблемы регрессии в машинном обучении.
Линейная регрессия показывает линейную связь между независимой переменной (ось X) и зависимой переменной (ось Y), поэтому называется линейной регрессией.
Если имеется только одна входная переменная (x), то такая линейная регрессия называется простой линейной регрессией. А если имеется более одной входной переменной, то такая линейная регрессия называется множественная линейная регрессия.
Взаимосвязь между переменными в модели линейной регрессии можно объяснить с помощью изображения ниже. Здесь мы прогнозируем зарплату сотрудника на основе года опыта.
Ниже приведено математическое уравнение для линейной регрессии:

Y = a + bX

Здесь

Y = зависимые переменные (целевые переменные),
X = независимые переменные (переменные-предикторы),
a и b — линейные коэффициенты

Некоторые популярные приложения линейной регрессии:

Анализ тенденций и оценок продаж
Прогнозирование заработной платы
Прогноз недвижимости
Прибытие в расчетное время прибытия в пробке.

Логистическая регрессия:

Логистическая регрессия — это еще один алгоритм обучения с учителем, который используется для решения задач классификации. В задачах классификации у нас есть зависимые переменные в двоичном или дискретном формате, такие как 0 или 1.
Алгоритм логистической регрессии работает с категориальной переменной, такой как 0 или 1, да или нет, правда или ложь, спам или не спам и т. д.
Это алгоритм прогнозирующего анализа, который работает на концепции вероятности.
Логистическая регрессия — это тип регрессии, но он отличается от алгоритма линейной регрессии тем, как они используются.
Логистическая регрессия использует сигмоидальную функцию или логистическую функцию, которая является сложной функцией стоимости. Эта сигмовидная функция используется для моделирования данных в логистической регрессии. Функцию можно представить в виде:

Здесь,

f(x)= вывод между значением 0 и 1.
x= вход в функцию
e= основание натурального логарифма.

Он использует концепцию пороговых уровней, значения выше порогового уровня округляются до 1, а значения ниже порогового уровня округляются до 0.

Существует три типа логистической регрессии:

Двоичный (0/1, годен/не годен)
Несколько (кошки, собаки, львы)
Порядковый номер (низкий, средний, высокий)

Полиномиальная регрессия:

Полиномиальная регрессия — это тип регрессии, который моделирует нелинейный набор данных с помощью линейной модели.
Он похож на множественную линейную регрессию, но соответствует нелинейной кривой между значением x и соответствующими условными значениями y.
Предположим, что есть набор данных, состоящий из точек данных, которые представлены нелинейным образом, поэтому в таком случае линейная регрессия не будет наилучшим образом соответствовать этим точкам данных. Чтобы охватить такие точки данных, нам нужна полиномиальная регрессия.
В в полиномиальной регрессии исходные объекты преобразуются в полиномиальные объекты заданной степени, а затем моделируются с использованием линейной модели. Это означает, что точки данных лучше всего подходят с помощью полиномиальной линии.

Уравнение для полиномиальной регрессии приведено ниже:

Y= b0+b1x+ b2x^2+ b3x^3+…..+ bnx^n.

Здесь Y — прогнозируемый/целевой результат, b0, b1,… bn — коэффициенты регрессии. x — наша независимая/входная переменная.
Модель по-прежнему линейна, поскольку коэффициенты по-прежнему линейны с квадратичными.

Опорная векторная регрессия:

Машина опорных векторов — это алгоритм обучения с учителем, который можно использовать как для регрессии, так и для задач классификации. Поэтому, если мы используем его для задач регрессии, то это называется регрессией опорных векторов.

Регрессия опорных векторов — это алгоритм регрессии, который работает с непрерывными переменными. Ниже приведены некоторые ключевые слова, которые используются в регрессии опорных векторов:

Ядро: это функция, используемая для отображения низкоразмерных данных в высокоразмерные данные.
Гиперплоскость. В общем случае SVM представляет собой разделительную линию между двумя классами, но в SVR это линия, которая помогает предсказать непрерывные переменные и покрыть большинство точек данных.
Граница. Граничные линии — это две линии, кроме гиперплоскости, которые создают поле для точек данных.
Опорные векторы. Опорные векторы — это точки данных, ближайшие к гиперплоскости и противоположному классу.

В SVR мы всегда пытаемся определить гиперплоскость с максимальным запасом, чтобы максимальное количество точек данных было покрыто этим запасом. Основная цель SVR – учесть максимальное количество точек данных в пределах граничных линий, а гиперплоскость (линия наилучшего соответствия) должна содержать максимальное количество точек данных. Рассмотрим изображение ниже:

Здесь зеленая линия называется гиперплоскостью, а две другие линии известны как граничные линии.

Регрессия хребта:

Гребневая регрессия — одна из самых надежных версий линейной регрессии, в которой вводится небольшое смещение, чтобы мы могли получать более точные долгосрочные прогнозы.
Величина смещения, добавляемая к модели, называется штрафом за регрессию хребта. Мы можем вычислить этот штрафной член, умножив лямбду на квадрат веса каждой отдельной функции.
Уравнение гребневой регрессии будет таким:

Общая линейная или полиномиальная регрессия потерпит неудачу, если существует высокая коллинеарность между независимыми переменными, поэтому для решения таких проблем можно использовать регрессию Риджа.
Ридж-регрессия — это метод регуляризации, который используется для уменьшения сложности модели. Это также называется регуляризацией L2.
Это помогает решить проблемы, если у нас больше параметров, чем образцов.

Лассо регрессия:

Лассо-регрессия — еще один метод регуляризации для уменьшения сложности модели.
Она аналогична хребтовой регрессии, за исключением того, что штрафной член содержит только абсолютные веса, а не квадрат весов.
Поскольку он принимает абсолютные значения, следовательно, он может уменьшить наклон до 0, тогда как гребневая регрессия может уменьшить его только почти до 0.
Это также называется регуляризацией L1. Уравнение для регрессии Лассо будет:

Регрессия дерева решений:

Дерево решений — это алгоритм обучения с учителем, который можно использовать для решения задач как классификации, так и регрессии.
Он может решать задачи как для категориальных, так и для числовых данных.
Регрессия дерева решений строит древовидную структуру, в которой каждый внутренний узел представляет «тест» для атрибута, каждая ветвь представляет результат теста, а каждый конечный узел представляет окончательное решение или результат.
Дерево решений строится, начиная с корневого узла/родительского узла (набора данных), который разбивается на левый и правый дочерние узлы (подмножества набора данных). Эти дочерние узлы далее делятся на свои дочерние узлы и сами становятся родительскими узлами этих узлов. Рассмотрим изображение ниже:

Регрессия случайного леса:

Случайный лес — один из самых мощных алгоритмов обучения с учителем, способный выполнять как регрессионные, так и классификационные задачи.
Регрессия случайного леса — это метод ансамблевого обучения, который объединяет несколько деревьев решений и предсказывает конечный результат на основе среднего значения каждого дерева. Комбинированные деревья решений называются базовыми моделями, и их можно представить более формально как:

   g(x)= f0(x)+ f1(x)+ f2(x)+....

Случайный лес использует метод ансамблевого обучения Bagging или Bootstrap Aggregation, в котором агрегированное дерево решений работает параллельно и не взаимодействует друг с другом.
С помощью регрессии случайного леса мы можем предотвратить переобучение в модели, создавая случайные подмножества набора данных.