Обзор

*Когда вы в последний раз одалживали деньги другу, но он никогда не возвращал вам деньги, поэтому вы решили просто отдать их ему?*

Банки, с другой стороны, не могут просто дать деньги взаймы и забыть об этом. Как банки узнают, будут ли возвращены наличные деньги, которые они выдают клиентам? На самом деле они не знают, но могут попытаться предсказать результат, основываясь на прошлых поведенческих особенностях клиента. Но на каких функциях им следует сосредоточиться?

Этот проект анализирует указанную выше проблему, сосредоточив внимание на том, какой модели и функциям следует отдавать приоритет, чтобы предсказать, будет ли клиент кредитной карты дефолтным (не сможет погасить) или нет. В этом подходе используется *инженерия функций*, ​​которая включает обработку и преобразование необработанных данных в 12 соответствующих функций. Затем эти функции используются в различных моделях для определения наиболее надежного метода, который могут использовать банкиры.

В рамках проекта делается вывод о том, что математический метод «SHAP» является эффективной моделью для определения соответствующих функций в выбранном наборе данных. Хотя модель превосходит другие методы, она не идеальна. Таким образом, дальнейшее проектирование может помочь избежать обобщения признаков. В конечном счете, открытие является хорошей основой для банкиров, чтобы построить модель, которая может предсказать, если клиент не выполнит свои обязательства, и снизить потенциальные финансовые риски.

История проекта

Выбранный набор данных для этого проекта называется Набор данных клиентов кредитных карт по умолчанию (DCC), импортированный из Kaggle.

Сводка набора данных

"Этот набор данных содержит информацию о невыплаченных платежах, демографических факторах, кредитных данных, истории платежей и выписках по счетам клиентов по кредитным картам на Тайване с апреля 2005 г. по сентябрь 2005 г."

Первоначальная мысль

Предоставляемые функции представляют собой демографические данные и схемы платежей пользователей кредитных карт и, следовательно, имеют отношение к цели этого проекта. Однако надежность прогноза зависит от модели и используемых функций.

Подходы к проекту

Что делать с отсутствующими данными

Представьте, как расстроились бы банкиры, если бы в их рабочем графике отсутствовало время обеда. Точно так же мы, как правило, не хотим иметь недостающие данные в нашем наборе данных. К счастью, набор данных DCC не содержит пропущенных значений.

Предварительная обработка данных

А теперь представьте, как бы расстроились банкиры, если бы курьер случайным образом раздавал им обед. Некоторые могут быть вегетарианцами, в то время как у других, вероятно, есть другие диетические ограничения. Это также относится и к нашему набору данных, который состоит из различных типов данных. Чтобы провести разработку признаков, мы хотим сгруппировать признаки по их связанным типам, таким как «числовые», «бинарные» и «категориальные».

Базовая модель

Чтобы определить, насколько надежны прогнозы, мы вычисляем прогностическую оценку на основе средних общих признаков. Мы надеемся использовать модели с оценкой выше 0,777.

Реализация

Чтобы определить наиболее эффективную модель, мы прогоняем набор данных через разные модели, чтобы вычислить и сравнить важность каждой функции. Эти модели включают в себя:

  1. Логистическая регрессия: часто используется для двоичных значений. Мы используем его здесь, потому что ответ на вопрос, будут ли клиенты по умолчанию или нет, будет «да» или «нет». Мы также используем эту модель для определения вероятности результата, а затем повторяем процесс несколько раз, чтобы зафиксировать среднее значение и стандартное отклонение этой вероятности для всех клиентов.
  • На рис. 1 показано, что прогнозируемая точность этой модели составляет 0,777. Так что, возможно, прогон набора данных через более сложные модели может улучшить оценку.

2. Другие модели. Можно использовать и другие сложные модели: RandomForestClassifier, Gradient Boost и LightGBM. «Рисунок 1» представляет собой сводку всех оценок для каждой модели.

  • Оценка обучения показывает, насколько хорошо модель соответствует набору данных, обученному моделью. При этом оценка проверки оценивает надежность прогнозов.

Среди всех LightGBM имеет самый высокий балл, но он может немного *переоснащаться*. Это определяется на основе того, насколько близко или далеко друг от друга находятся оценки поезда и проверки.

*Например, если банкиры ожидали обед в полдень, а еда была доставлена ​​в точное время, они не могут предположить, что она всегда будет доставлена ​​в точное время для следующего заказа. Мы называем эту чрезмерно оптимистичную ситуацию «недообучением». Между тем, если еда была доставлена ​​намного раньше или позже, чем ожидалось, мы рассматриваем это как «переобучение»*.

Интерпретация данных

После выбора модели LightGBM мы определяем наиболее релевантные функции для прогноза. Для этого мы используем принудительный график под названием SHAP, чтобы помочь визуализировать важность функций. «Рисунок 2.» показывает, что красные функции приводят прогноз к 1 (по умолчанию = да), а синие функции отклоняют его от 1.

Таким образом, сумма в ведомостях по счетам (в августе 2005 г.) и суммы в предыдущих ведомостях, вероятно, могут привести к высокому прогнозу «да». Между тем, предельный баланс и некоторые суммы счетов могут привести к более низкому прогнозу.

Ограничения и недостатки

Помните, выбранная модель не идеальна. Функция 3. представляет собой матрицу, которая показывает количество правильных прогнозов (6702 и 428) по сравнению с ложными прогнозами (350 и 1520). Большое количество ложных предсказаний предполагает, что нашу модель еще можно улучшить.

Хотя текущая модель могла бы стать хорошей основой, при наличии времени и ресурсов можно внести улучшения, например, более совершенную машину для выполнения кода. Сложный метод разработки функций может помочь нам исследовать различные комбинации функций. Например, мы могли бы подумать о «женском_разводе», а не о «сексе» и «браке». Такой подход позволил бы нам распределить важность признаков на основе их характеристик, а не объединять их все в один и предполагать, что веса одинаковы. Таким образом, помогите уменьшить количество ложных прогнозов.

Заключительные выводы

В рамках проекта делается вывод о том, что метод «SHAP» и LightBGM являются эффективными моделями для определения соответствующих функций для выбранного набора данных. Это говорит о том, что сумма в счетах и ​​предыдущих отчетах, вероятно, поможет определить, не выполнит ли клиент дефолт.

Поскольку он был построен на относительно простой технике разработки признаков, дальнейшая обработка могла бы помочь классифицировать клиентов по подтипам, таким как «замужняя женщина» или «университетский мужчина». В конечном счете, SHAP — очень интерпретируемая модель, поскольку она значительно упрощает сравнение важности каждой функции.