Простая линейная регрессия — это линейный подход к моделированию взаимосвязи между зависимой переменной и одной независимой переменной.

Формула простой линейной регрессии:

y = β0​+β1​x

Где:
y — зависимая переменная.

x — независимая переменная.

β0​ — это точка пересечения оси y.

β1​ — наклон линии.

Цель – найти наиболее подходящую линию, которая минимизирует сумму квадратов разностей (остатков) между наблюдаемыми значениями (фактическими значениями) и значениями, предсказанными моделью.

В демонстрационных целях давайте:
1. Сгенерируем некоторые синтетические данные для x (независимой переменной) и y (зависимой переменной) с добавленным шумом.
2. Вычислим коэффициенты β0 и β1 для линии регрессии.
3. Постройте точки данных и линию регрессии.

Начнем с генерации синтетических данных и их визуализации.

Вот синтетические данные, которые мы сгенерировали. Как видите, в данных наблюдается линейный тренд, но они также зашумлены из-за добавленных нами случайных остатков.

Далее мы рассчитаем коэффициенты β0 и β1 для линии регрессии, используя следующие формулы:

1. β0​ = ∑(xi​−xˉ)2 / ∑(xi​−xˉ)(yi​−yˉ​)​
2. β1 = yˉ​−β1​xˉ

Где:
- xˉ — среднее значение независимой переменной x.
yˉ — среднее значение зависимой переменной y.

Давайте рассчитаем β0 и β1, а затем построим линию регрессии вместе с точками данных.

Вот результат:

Красная линия представляет собой линию регрессии с уравнением:

y = 2.00 + 0.32x

Синие точки — это точки синтетических данных, которые мы сгенерировали.

Коэффициенты, которые мы вычислили для нашей линии регрессии:
- β0 (пересечение оси y): 2,00
- β1 (наклон): 0,32

Это означает, что при каждом увеличении независимой переменной x на единицу зависимая переменная y увеличивается примерно на 0,32 единицы, сохраняя при этом другие факторы постоянными.