Привет! Это команда Ресурса. Мы запустили подкаст — о данных, бизнесе и данных для бизнеса. Вместе с экспертами обсуждаем, как и зачем бизнесу работать с данными, делимся источниками, свежими аналитическими отчётами и своими инсайтами.
Главное будем фиксировать в удобном формате конспекта — ищите ссылки на конспекты всех выпусков на телеграм-канале Ресурса.
Это конспект третьего выпуска об аналитике в банковском секторе. В гостях — Александр Папруга, руководитель проектов развития аналитических средств по работе с данными платформы Кибербезопасности Сбера.
О том, как работает скоринг
Скоринг (англ. score — личный счёт, рейтинг) — это способ максимально оперативно оценить потенциального заемщика, рассчитать риски и принять решение о том, какое предложение можно сделать для конкретного клиента. Идея скоринга — в скорости, экономии и автоматизации.
Простейший пример скоринга — балльная система в школе. Это оценивание по определенной шкале: промежуточная и результирующая оценки выводятся при помощи алгоритма. Это пример усредненного скоринга: общий (средний) балл складывается из оценок по разным предметам — такой скоринг не совсем эффективен.
В банковском секторе применяется интеллектуальный скоринг: производится комплексная оценка факторов, на основе которых затем принимается решение. Скоринг — это пример того, как математическая модель позволяет оператору быстро принять какое-то решение.
Преимущество системы скоринга в том, что она позволяет максимально уйти от субъективизма. Алгоритм всегда честен. Если бы решение принимал отдельный специалист, то могла бы сложиться ситуация предвзятой оценки в отношении объекта исследования (в нашем случае — клиента банка). И всё же в большинстве ситуаций для принятия решения только модели будет недостаточно.
Чем сложнее модель — тем точнее она предсказывает ответ, тем более качественный результат выдаёт. Но, вместе с тем, её сложнее интерпретировать, объяснить аудитору. Поэтому часто рынку и специалистам приходится использовать более простые решения с потерей в результирующем качестве.
Любая модель скоринга в кредитных системах используется для того, чтобы банк получил максимальную прибыль и взял на себя минимальный риск. На результаты скоринга влияют конкретные действия клиента.
Среди таких факторов влияния:
- своевременное погашение квартплаты
- своевременное внесение обязательных платежей
- своевременные выплаты по кредитам
Об эволюции средств обработки данных в финансовом секторе
Раньше специалисты-аналитики в большей степени работали с подготовкой и представлением данных. Теперь на рынке наблюдаются новые тенденции — им нужно становиться настройщиками, постановщиками задач.
Системы развиваются и совершенствуются, в них внедряются элементы искусственного интеллекта и машинного обучения — с этим нужно уметь работать. Это рынок услуг и алгоритмов которые частично умеют работать самостоятельно. Тем не менее, они должны настраиваться и корректироваться специалистами.
Происходит эволюция с точки зрения средств и методологий. Рынок отходит от простой аналитики и двигается в сторону развития средств, которые помогают находить инсайты, внутренние зависимости и скрытые закономерности в данных. Для этого нужен методологический аппарат.
Проблема с ростом объёма данных остаётся одной из ключевых. Это основная задача, которую решают современные специалисты-аналитики. Однако подходы, позволяющие находить инсайты, работают именно на больших объемах данных, которые, на первый взгляд, могут показаться не связанными между собой.
Не бывает слишком много данных — просто с ними нужно уметь работать. Через большой объём данных мы получаем всё больше возможных выводов и решений.
О подходах к аналитике данных
Современную аналитику (средства обработки данных) можно поделить на 2 основных типа:
- Работа с потоковыми данными.
Это данные, которые необходимо собирать в больших количествах в режиме реального времени — и обрабатывать сразу же, оперативно принимая решения. Потоковая обработка актуальна в ситуациях, когда решение необходимо принять прямо сейчас. Такая модель часто используется, например, в системах безопасности.
- Работа с пакетными данными.
Это данные, которые собираются и хранятся для дальнейшей аналитики. Они нужны, чтобы проводить исследования, делать выводы, строить новые модели для аналитики (в т. ч. потоковой.) Работа с пакетными данными — это более классический, простой и дешевый вариант. Пакетная обработка — это ретроспектива.
О BI-аналитике
BI (Business Intelligence) — средство бизнес-аналитики. Это система, которая позволяет пользователю (не очень продвинутому в IT-направлении) проанализировать и визуализировать большие объемы информации. Преимущество этого инструмента — в возможности строить красивые, интерактивные отчёты.
BI-системы ориентируются скорее не на топ-менеджеров, а на специалистов уровня middle/middle+. Они дают возможность:
- Легко подключиться к большим данным.
- Быстро и легко проанализировать полученные данные.
- Красиво и наглядно представить, визуализировать данные.
- Быстро и легко отправить отчёт получателю/заказчику.
- Быстро и незаметно для конечного пользователя обновлять данные.
BI-аналитика может применяться в любом бизнесе для анализа разных типов данных:
- объемы продаж
- выручка
- количество клиентов
Но наиболее интересным и ценным оказывается понимание совокупности этих факторов. На основе этих данных можно обнаружить неочевидные зависимости и найти инсайты.
Все средства бизнес-аналитики зависят от данных, которые они получают на вход. Это скорее средства визуализации и удобного представления развернутой аналитики. Поэтому так важно понимать, какие задачи обработки данных стоят перед нами и какие задачи решает непосредственно наш бизнес.
Следующий шаг после BI — использование средств продвинутой аналитики: средств машинного обучения и дополненной аналитики.
О ресурсах и командах для продвинутой аналитики
Классификация специалистов и квалификаций (состав команды):
- IT-специалисты.
Разрабатывают системы хранения и анализа данных. Организовывают и подготавливают весь набор инструментария. - Data-инженеры.
Работают с потоками данных. Знают, как забрать, переложить и трансформировать данные, чтобы ими можно было пользоваться.
- Data Scientist.
Извлекают из данных скрытые закономерности и моделируемые, прогнозируемые выводы. - Аналитики BI-системы/пользователи/заказчики.
Принимают бизнес-решения на основе данных. Также должны уметь правильно работать с инструментом.
О Data-Driven подходе и Data Science
Все управленческие решения должны быть основаны на данных.
Data-Driven решения — подход, при котором под все бизнес-решения подкладываются результаты аналитики, произведённые прежде. Чтобы эти данные появились, необходима соответствующая автоматизация. Такой подход экономит ресурсы компании и позволяет ей быстрее реагировать на изменения.
Data Science – свод навыков и направлений деятельности, включающий:
- умение получать, очищать и подготавливать данные
- умение работать с современными средствами анализа данных
- умение строить модели машинного обучения
Машинное обучение — это способ моделирования, задача которого — при помощи определенных алгоритмов заставить компьютер проанализировать ту или иную информацию и найти зависимости в ней. На основе этих зависимостей в дальнейшем составляется предсказание.
Есть 2 типа обучения:
- Обучение с учителем.
Особенность этого типа в том, что, помимо входных данных, которые анализирует алгоритм, мы также предоставляем ему возможные результаты по каждому из наблюдений. Система видит и запоминает ответы, получающиеся при определенном наборе факторов. Со временем модель обучается, а после её обучения появляется возможность получать готовые предсказания на основе входных параметров.
- Обучение без учителя.
В этом случае алгоритм работает только со входящими факторами, без готовых ответов. Модель никак не приоритезирует факторы и не знает о том, что какие-то из них имеют большее значение, чем другие. Этот тип обучения позволяет обнаружить зависимость определенных факторов между собой: понять, что и с чем связано. Далее уже из этой зависимости мы получаем результат.