Как разрабатывают скоринговые модели для банков

Поучаствовал в дискуссии на тему разработки скоринговых моделей для банков. Полный текст дискуссии — в сообществе Open Data Science, вступайте.

Крупные розничные банки разрабатывают скоринговые модели сами, в первую очередь потому, что это их core business. Скоринговая модель оперирует многомиллионными бюджетами, цена ошибки огромна, параметры зависят от кредитной политики, в итоге естественно желание полностью контролировать модель. Кроме того, допуск аутсорсеров к модели может повлечь за собой утечки, которые могут использоваться мошенниками или конкурентами.

При этом существуют решения Scoring-as-a-Service от владельцев специфических данных — БКИ (бюро кредитных историй), рекламных площадок, социальных сетей, мобильных операторов. Также есть «стандартные» модели от поставщиков банковского софта, ими пользуются региональные банки с маленькими бюджетами.

При построении скоринговых моделей приходится бороться с сильными смещениями в обучающей выборке:

  • Доли хороших и плохих заемщиков часто различаются в несколько раз, т.к. классы сильно не сбалансированы.
  • Модель обучается на данных годовой давности, а иногда и постарше. Применяться модель будет на данных в будущем. Макроэкономическая ситуация за это время поменяется.
  • В обучающую выборку попадают только те заемщики, которым был одобрен кредит. Судьбу заемщиков с неодобренным кредитом узнать не удастся. Налицо систематическая ошибка выжившего.

В США на уровне закона требуется интерпретируемость скоринговой модели. В других странах, в т.ч. в России, также сильно желание иметь интерпретируемую модель, существует комплекс недоверия к «черному ящику». Де-факто стандартным инструментом для скоринга является логистическая регрессия, и вот почему:

  • Логистическая регрессия хорошо интерпретируема, статистически обоснована и может быть скорректирована вручную.
  • Логистическая регрессия устойчива к дисбалансу классов. К тому же все равно вероятность дефолта интересует больше, чем метка класса.
  • Линейные модели обладают приемлемой обобщающей способностью и устойчивы к изменениям распределений входных признаков.

При построении моделей в качестве технической метрики используется индекс Джини (GI = 2 * ROC AUC — 1). Для его расчета собирают и надолго фиксируют сбалансированную референсную выборку. Это дает возможность сравнивать различные модели. Однако решения по выборку кредитной стратегии и выводу моделей в продакшен принимаются на основании специфичных бизнес-метрик, наподобие «95-го перцентиля ожидаемых потерь».

Для борьбы со смещениями распределений применяются ручное «подкручивание» модели или покупаются исторические данные у сторонних поставщиков. При освоении новых кредитных продуктов иногда практикуется «слепая» раздача кредитов вообще без использования скоринговой модели.

Бюджеты на построение скоринговых моделей обычно достаточно высоки, чтобы позволить ручную валидацию всех ее параметров. Методы уменьшения размерности и регуляризации если и используются, то только на стадии разработки. В конце получается стабильная очищенная модель, использующая только полезные признаки. Признаки часто дополнительно модифицируются и стандартизуются.