Вы когда-нибудь задумывались, почему логистическая регрессия используется для решения задачи классификации, но все еще содержит «регрессию».

В этом посте мы ответим на такие вопросы, как почему термин регрессии используется в логистической регрессии? и как его можно преобразовать в вероятности класса?

Для задач классификации в машинном обучении мы часто хотим знать, насколько вероятно принадлежит экземпляр к классу, а не к какому классу он будет принадлежать. Поэтому во многих случаях мы хотели бы использовать оценочную вероятность класса для принятия решения.

Рассмотрим сценарий, в котором нам нужно обнаружить кредитное мошенничество. Менеджер отдела по борьбе с мошенничеством хочет знать не только, кто может быть мошенником, но и о случаях, когда на карту поставлен кредитный риск, т.е. о счетах, где ожидается, что денежные убытки компании будут самыми высокими.

Здесь мы должны знать класс вероятности мошенничества для данного конкретного случая.

Что именно является точной оценкой вероятности членства в классе, является предметом споров, выходящих за рамки этой публикации.

Примерно хотелось бы

(i) оценки вероятности должны быть хорошо откалиброваны, что означает, что если вы возьмете 100 случаев, вероятность принадлежности к классу которых оценивается равной 0,2, то около 20 из них действительно будут принадлежать этому классу.

(ii) оценки вероятности быть дискриминационными. Это означает, что они должны давать разные оценки вероятности для разных примеров. Скажем, вероятность 0,5 класса указывает на то, что 50% населения являются мошенниками. Это базовая ставка, поэтому нам нужна дискриминация, чтобы получить границу вероятности более высокого / низкого класса для оценки.

Понимание, в чем сложность использования линейной модели для прогнозирования вероятности класса?

Предположим, f (x) - наша линейная функция. x - экземпляр, находящийся дальше от разделяющей границы, интуитивно должен приводить к более высокой вероятности принадлежности к тому или иному классу. Таким образом, f (x) дает нам расстояние от разделяющей границы. Как мы знаем, линейная регрессия может принимать значения от -infinity до + infinity. Но наши вероятности класса варьируются от 0 до 1.

Одно из полезных понятий вероятности события - это шансы.

Вероятность события - это отношение того, что событие произойдет, к вероятности того, что событие не произойдет. Шансы варьируются от 0 до + бесконечности. Таким образом, мы не можем отобразить наше линейное распределение от 0 до + бесконечности, используя функцию шансов.

Но ждать! Поскольку любое число, которое находится в диапазоне от 0 до + бесконечности, его значение журнала будет в диапазоне от -infinity до + бесконечности. Итак, давайте сравним это, то есть логарифмические шансы, с нашей линейной моделью.

Предположим, у нас есть экземпляр класса c, который нужно спрогнозировать на основе линейной модели, тогда логарифмические шансы этого будут

Выше w0, w1, w2,…. - веса, заданные нашей линейной моделью, а x1, x2, x3,… - характеристики набора данных. P (c) - это вероятность того, что, насколько это мошенничество с кредитами, а 1-P (c) - вероятность того, что насколько это не кредитное мошенничество.

Теперь нам часто нужна вероятность класса c, то есть P (c) как наша предсказанная вероятность класса, и не нужны логарифмические шансы для функции. Мы можем решить для P (c).

Таким образом, мы берем экспоненту обеих сторон относительно e.

Слева мы можем исключить e и log для значения мощности.

Решая для P (c),

В уравнении 2, если мы построим график, используя значения x и w, мы получим кривую примерно так:

Вышеуказанная кривая называется «сигмовидной кривой» из-за ее S-образной формы, которая сжимает вероятности в их соответствующий правильный диапазон (от нуля до единицы).

Сигмовидная кривая предполагает, что значения около границы неопределенны для класса. А по мере удаления от границы неопределенность уменьшается, и, таким образом, становится очевидной принадлежность к классу.

Это приводит нас к стандартной целевой функции для подбора логистической регрессии. Таким образом, «вероятность» принадлежности данного примера правильному классу может быть выражена следующим образом:

Модель максимального правдоподобия «в среднем» дает наивысшие вероятности положительным примерам и наименьшие вероятности отрицательным примерам.

Надеюсь, статья вам понравилась. Пожалуйста, прокомментируйте любые исправления.