Как банки принимают решение по кредитным заявкам? Разработка скоринговых карт
Каждый раз, когда вы подаёте заявку в банк на выдачу кредита, он проверяет вас по многим параметрам. Таким образом банк хочет управлять кредитным риском. В то же время, чтобы быстро обрабатывать тысячи заявок используются автоматизированные системы принятия решения. Давайте заглянем под капот таких систем и узнаем, как это работает.
Моделирование кредитных рисков в банковский сектор пришло из ботаники. В статистике идеи классификации популяции на группы были разработаны Фишером в 1936 г. на примере растений. Этот тот самый знаменитый пример Ирисов Фишера. Он часто используется для иллюстрации работы статистических алгоритмов.
В 1941 г. Дэвид Дюран впервые применил данную методику к классификации кредитов на «плохие» и «хорошие». С началом Второй мировой войны банки столкнулись с необходимостью срочной замены аналитиков. Аналитики составили свод правил, которыми следовало руководствоваться при принятии решения о выдаче кредита, чтобы анализ мог проводиться неспециалистами. Это и был прообраз будущих систем принятия решения.
Таблица -1. Пример скоркарты 40-x годов.
Из-за требований внешних регуляторов в качестве моделей для скоринга кредитных заявок рассматриваются интерпретируемые модели. Например, решающее дерево или логистическая регрессия. Интерпретация решающего дерева простая и понятная. Визуализируйте.
С интерпретацией логистической регрессии немного сложнее. Для этих целей и разрабатывается скоринговая карта.
Жизненный цикл разработки скоринговых карт
Сбор, очистка и предобработка данных
Монотонный WOE bining признаков
Ручной WOE bining признаков при необходимости
Отбор признаков по Information Value
Построение логистической регрессии
Построение скоркарты
Рассмотрим жизненный цикл на примере. Возьмём анонимизированный учебный набор данных по заявкам на кредитные карты — Credit Approval Data Set. К сожалению, нам не известны наименование признаков, но можем предположить, что туда входят возраст, пол, доход и т.д. Набор данных состоит из 14 признаков и целевой переменной. Предобработка данных в этом датасете очень простая. Заменим все «?» на NaN, а потом пропуски в числовых признаках на средние значения и на самое часто встречаемое в категориальных признаках.
Теперь необходимо написать WOE binning для числовых и категориальных переменных.
WOE считается для каждого признака!
Плюсы монотонного WOE binningа признаков:
Упрощает интерпретацию
Обрабатывает отсутствующие значения
Выявляет сложные нелинейные связи
Преобразование основано на логарифмическом распределении
Упрощает обработку выбросов
Нет необходимости в dummy variables
Можно устанавливать монотонную зависимость (либо увеличение, либо уменьшение) между независимой и зависимой переменной
Объединим категории с близкими значениями WOE в одну категорию так, чтобы максимизировать разницу между группами. Теперь можно посмотреть на графиках, как переменные разбились по группам и проверить монотонность возрастает или убывает.
Далее оценим по графикам, монотонно возрастают или убывают. При необходимости провести ручной бининг. Ручной бининг нужен для объединения категорий с близкими значениями WOE в одну категорию так, чтобы максимизировать разницу между группами.
Отбор признаков по information value
Information Value (IV) измеряет предсказательную силу признаков. Считается для каждого признака.
Значения Information Value (IV) для определения cutoff по отбору признаков:
<0.02 Бесполезно для предсказания
0.02 – 0.1 Слабая
0.1 – 0.3 Средняя
0.3 – 0.5 Хорошая
0.5+ Слишком хорошо, что бы быть правдой
План отбора признаков по IV:
Определить Cutoff для IV и корреляции
Можно сразу исключить признаки с низким Information Value, а затем и по cutoff
Осуществить проверку на корреляцию. Из двух коррелирующих признаков нужно исключить тот, у которого IV меньше
Строим логистическую регрессию и оцениваем метрики на кросс-валидации и тестовой выборке. Смотрим на коэффициент ROC AUC или Gini.
Скорбалл считается по следующей формуле:
Score = (β×WoE+ α/n)×Factor + Offset
где:
β — коэффициент логистической регрессии признака
α — свободный член
WoE — Weight of Evidence признака
n — количество признаков, включенных в модель
Factor, Offset — параметры масштабирования. Множитель и смещение.
Множитель и смещение считаются так:
Factor = pdo/Ln(2) Offset = B — (Factor × ln(Odds))
где:
pdo — количество баллов, удваивающее шансы
B — значение на шкале баллов, в которой соотношение шансов составляет С:1
Например: Если скоринговая карта имеет базовые коэффициенты 50: 1 в 600 баллах, а pdo из 20 (вероятность удвоения каждые 20 баллов), то множитель и смещение будут: Factor = 20/Ln(2) = 28.85 Offset = 600- 28.85 × Ln (50) = 487.14
Получаем следующие скорбаллы:
А3 от 0 до 1.5: 20 баллов
А3 от 1.54 до 5.04: 23 балла
А3 от 5.085 до 28: 32 балла
Таким образом скорбаллы считаются и для остальных признаков и составляется итоговая скоркарта. Дополнительный плюс этого подхода, что потом реализовать готовую скоркарту можно на любом языке программирования, в любой системе используя конструкцию if else.