В многомерной линейной регрессии ваша цель состоит в том, чтобы создать утверждение гипотезы, которое даст значение, максимально близкое к вашим данным (рис. 1). При этом будет создана функция гипотезы для прогнозирования значения с использованием более чем одной независимой переменной. Затем, используя градиентный пристой, веса функций будут выбраны таким образом, чтобы разница между данными была минимизирована.

Обозначение

Заявление о гипотезе

Функция одномерной гипотезы, как следует из названия, использует одну переменную для предсказания значения.

При этом x — это входная функция/переменная, для которой функция h(x) предсказывает значение. θ₀ и θ₁ — это веса, данные для изменения признака, чтобы предсказать значение, максимально близкое к данным.

Эта функция может быть расширена до нескольких признаков, чтобы создать гипотезу многомерной линейной регрессии.

В этой гипотезе функции X₀, X₁, … Xₙ представляют собой индивидуальные особенности, которые вносят вклад в прогнозируемое значение. θ₀, θ₁, … θₙ — постоянные значения, которые взвешивают важность функции для прогнозирования точных значений.

Используя векторы, мы можем кратко представить θ, параметры и X, признаки, как:

Исходя из этого, мы можем векторизовать нашу функцию гипотезы, переставив вектор θ и умножив его на вектор X:

Этот вектор X можно изменить на матрицу, содержащую несколько образцов, для выполнения массовых расчетов.

Функция стоимости

Для измерения точности функции гипотезы обычно используется функция стоимости. Эта функция берет среднее значение всех различий выходных данных функции гипотезы по сравнению с фактическим значением y.

Функция стоимости для одномерной линейной регрессии показана ниже:

В этой функции Σ(hθ(xᵢ) — yᵢ) представляет собой среднеквадратичную ошибку, а среднее значение делится пополам для удобства вычисления градиентного спуска. При этом производный член функции стоимости отменит 1/2.

Эту функцию можно расширить для работы с несколькими переменными как таковыми:

Векторизованная версия показана ниже:

Мы хотим минимизировать функцию стоимости или, другими словами, получить прямую линию как можно ближе к разбросанному набору данных. Итак, мы хотим, чтобы наше значение было как можно ближе к 0. Чтобы минимизировать эту функцию стоимости, мы используем приличный градиент.

Градиент Достойный

После понимания функции стоимости у нас теперь есть способ измерить, насколько хорошо функция гипотезы вписывается в данные. Но теперь нам нужно выяснить, как оценить параметры в функции гипотезы. Вот где вступает в действие градиентный спуск.

В этой функции мы пытаемся получить значения, которые минимизируют функцию стоимости, другими словами, получают значения параметров, которые максимально приближают линейную линию к данным. Для этого нам нужно представить каждую функцию как квадратичную функцию.

Если мы подумаем о градиентном спуске для одной функции, значение ее параметра с выходной функцией функции стоимости имеет форму квадратичной функции. Однако как перейти от случайного начального значения параметра к получению значения, которое минимизирует функцию стоимости. Вот где член a*a/aθⱼ * J(θ) на рис. 10 вступает в игру. Это производная функции стоимости в точке. Если эта производная отрицательна, когда мы вычитаем начальное значение параметра из отрицательного наклона, это увеличит значение параметра, чтобы приблизиться к идеальному значению. Это показано на рисунке 11.