Простая линейная регрессия — это линейный подход к моделированию взаимосвязи между зависимой переменной и одной независимой переменной.
Формула простой линейной регрессии:
y = β0+β1x
Где:
y — зависимая переменная.
x — независимая переменная.
β0 — это точка пересечения оси y.
β1 — наклон линии.
Цель – найти наиболее подходящую линию, которая минимизирует сумму квадратов разностей (остатков) между наблюдаемыми значениями (фактическими значениями) и значениями, предсказанными моделью.
В демонстрационных целях давайте:
1. Сгенерируем некоторые синтетические данные для x (независимой переменной) и y (зависимой переменной) с добавленным шумом.
2. Вычислим коэффициенты β0 и β1 для линии регрессии.
3. Постройте точки данных и линию регрессии.
Начнем с генерации синтетических данных и их визуализации.
Вот синтетические данные, которые мы сгенерировали. Как видите, в данных наблюдается линейный тренд, но они также зашумлены из-за добавленных нами случайных остатков.
Далее мы рассчитаем коэффициенты β0 и β1 для линии регрессии, используя следующие формулы:
1. β0 = ∑(xi−xˉ)2 / ∑(xi−xˉ)(yi−yˉ)
2. β1 = yˉ−β1xˉ
Где:
- xˉ — среднее значение независимой переменной x.
— yˉ — среднее значение зависимой переменной y.
Давайте рассчитаем β0 и β1, а затем построим линию регрессии вместе с точками данных.
Вот результат:
Красная линия представляет собой линию регрессии с уравнением:
y = 2.00 + 0.32x
Синие точки — это точки синтетических данных, которые мы сгенерировали.
Коэффициенты, которые мы вычислили для нашей линии регрессии:
- β0 (пересечение оси y): 2,00
- β1 (наклон): 0,32
Это означает, что при каждом увеличении независимой переменной x на единицу зависимая переменная y увеличивается примерно на 0,32 единицы, сохраняя при этом другие факторы постоянными.