«Одна команда ищет данные, другая их размечает, третья — создаёт модели»

Рассказываем, как в Альфа-Банке работают с машинным обучением и искусственным интеллектом.

«Одна команда ищет данные, другая их размечает, третья — создаёт модели»

Любая современная финтех-компания нуждается в продвинутых аналитических инструментах. Они нужны, чтобы принимать более обоснованные решения, для оптимизации и автоматизации рабочих процессов и улучшения результатов работы в целом. Продвинутая аналитика используется практически во всех аспектах банковской деятельности — от принятия решений по выдаче кредита до первичной проверки резюме кандидатов на вакантные позиции — и для этого дата-сайентисты банка применяют все накопленные за годы данные. Чтобы компетентно выполнять эти задачи, в Альфа-Банке работает Центр продвинутой аналитики (ЦПА). Рассказываем, как он устроен.

Как появился ЦПА

ЦПА был создан за счет объединения разных команд, которые работали над моделированием в Банке. Это позволило эффективнее распределять ресурсы и не дублировать одни и те же функции.

К 2020 году в Альфа-Банке сформировалось два крупных центра, которые занимались задачами машинного обучения (Machine Learning, ML). Первый находился в Дирекции рисков, которая исторически обладала высокой компетенцией в области построения математических моделей, а второй — в департаменте CRM. В каждом из этих центров сформировались собственные подходы и инструментарий, который использовался для решения различных задач, в том числе выходящих за рамки компетенций изначальных подразделений.

Параллельно с этим развитием модельной экспертизы начали заниматься и в других подразделениях банка. В определенный момент стало очевидно, что такие разрозненные инициативы могут дублировать друг друга, и не всегда работают с максимальной эффективностью. Тогда, в марте 2021-го года, путём объединения команд (в основном дата-сайентистов) из разных департаментов был создан Центр продвинутой аналитики.

В первые месяцы перед новым структурным подразделением стояло несколько важных организационных целей. Для начала нужно было обеспечить преемственность. Задачи, которыми занимались разные департаменты, никто не отменял, поэтому руководству было важно организовать максимально «бесшовный» переход сотрудников. Другой важной задачей было создание единой инфраструктуры для моделирования и исполнения моделей, так как до этого она различалась в зависимости от подразделения.

Кроме того, команда изначально сформулировала для себя два ключевых принципа работы, которых придерживается до сих пор. Прежде всего, Центр продвинутой аналитики должен был создавать дополнительную ценность для банка. Поэтому сотрудникам пришлось проработать действенную методологию подсчёта своей эффективности в зависимости от задачи и направления.

Это не всегда было просто — по некоторым вопросам завершить эту работу удалось только к концу второго года существования ЦПА. Зато сейчас любой сотрудник Альфа-Банка в любой момент может ознакомиться с деятельностью подразделения и оценить, почему выполняются те или иные задачи, а также как именно и насколько эффективно расходуются ресурсы. Это стало вторым важным принципом, которым руководствуется Центр продвинутой аналитики: быть самым «прозрачным» подразделением в банке.

Десять команд ЦПА: кто они?

«Одна команда ищет данные, другая их размечает, третья — создаёт модели»

Сейчас в Центр продвинутой аналитики входят десять самостоятельных команд. На текущий момент в нём работает 250 человек — по сравнению с началом 2021 года количество сотрудников увеличилось более чем в пять раз. Все эти люди разделены по командам и работают вместе над современными финтех-решениями. При этом некоторые отделы внутри ЦПА не создают самостоятельные финансовые сервисы, но вносят огромный вклад в общую работу и выполняют множество очень важных вспомогательных функций. Например, без них не могут существовать дата-сайентисты — в этом случае их работа будет либо очень сложна, либо невозможна в принципе.

Вот чем занимаются разные подразделения ЦПА Альфа-Банка:

MLOps

Создание и обучение модели — лишь первый шаг в процессе разработки. Впоследствии нужно обеспечить её внедрение и работоспособность, а также заниматься дальнейшим развитием и регулярным обновлением модели. За это отвечает команда MLOps. На данный момент это одна из самых многочисленных команд в составе ЦПА. В её задачи входит развитие инфраструктуры для разработки и применения искусственного интеллекта в Альфа-Банке.

Команда одной из первых на рынке применила инструмент объединения нескольких моделей в каскад. Это позволило упростить работу дата-сайентистов и оптимизировать процесс разработки. Создание онлайн-каскадов моделей и онлайн-трансформатора признаков позволило сократить время внедрения моделей в три раза. Причём их логику команда также разработала и применила в промышленном процессе первой на рынке.

Помимо прочего, она занимается проектами, связанными с автоматическим обучением и переобучением моделей (AutoML), подготовкой данных для них и дополнительным обогащением генеративного ИИ актуальной информацией.

Источники данных

Это направление отвечает за поиск, подготовку и подключение внутренних источников информации Альфа-Банка. Это позволяет обогащать уже существующие базы данных, улучшать качество моделей машинного обучения и создать новые аналитические решения.

Специалисты команды тесно сотрудничают с дата-сайентистами, обеспечивая их необходимыми данными для решения различных бизнес-задач. Например, для улучшения кредитных рисковых моделей, прогнозирования клиентского поведения или разработки персонализированных предложений.

Инжиниринг данных

Управление инжиниринга данных наполняет Feature Store фичами — признаками, которые используются для обучения и работы моделей. Тщательный процесс отбора таких признаков напрямую влияет на качество работы модели.

Другой важной функцией команды является перенос данных из разных источников в единое хранилище, которое впоследствии используют модели Центра продвинутой аналитики.

Дополнительно инженеры данных обеспечивают контроль качества данных — то есть следят за тем, чтобы источники для расчёта фичей и сами фичи формировались вовремя, без дублей и пропусков.

Разметка данных

Для обучения моделей искусственного интеллекта требуется большой датасет, то есть набор данных. В него, в зависимости от задачи, может входить текст, изображения, видео или аудиозаписи. Для эффективного обучения всем этим данным нужно присвоить определенные метки, чтобы модель могла сопоставить имеющуюся информацию с конкретным запросом. Например, если её задача состоит в определении породы собаки по фото, то разметчикам (также их называют AI-тренерами) нужно отобрать большое количество снимков и каждому присвоить определенный класс, в данном случае — породу.

Если мы говорим про взаимодействие с клиентами, то основная задача команды заключается в том, чтобы отсматривать огромное количество сообщений клиентов и корректно размечать их в соответствии со смыслом и категорией запроса. На основе этих данных дата-сайентисты обучают новые и дорабатывают уже существующие в банке нейросети.

В основном работа разметчиков помогает усовершенствовать ботов и ассистентов (а затем - контролировать качество их работы). Первые отвечают на вопросы клиентов, вторые — помогают операторам колл-центра быстрее и эффективнее выполнять свою работу. Такой объем работы требует соответствующих ресурсов — в команде уже насчитывается 85 сотрудников, и их число постоянно растет.

Аналитика качества моделирования

Подразделение состоит из двух команд. Первая отвечает за мониторинг и непрерывную оценку качества моделей машинного обучения — модели склонны к естественной деградации и нуждаются в постоянном обновлении. Команда участвует в процессах контроля модельного риска, в рамках которого происходят оценки скорости деградации метрик, рисков для бизнес-процессов, а также информирование остальных команд, если показатели опускаются ниже пороговых значений. Благодаря этому, бизнес понимает, что происходит с его моделью, насколько изменения критичны для его текущих задач, и нуждается ли она в перестройке.

Вторая команда занимается A/Б-тестированием, оценивая влияние моделей на бизнес-процессы в терминах изменения ключевых метрик. А/Б-тестирование — единственный честный способ понять, что модель действительно приносит ценность для бизнеса в деньгах или в продуктовой метрике.

Команда также предоставляет методологическую поддержку в части выделения контрольных групп («ручейков»), которые позволяют собирать данные для оценки долгосрочных продуктовых эффектов и для обновленных моделей (в том числе, с учетом Reject Inference).

Хаб розничного бизнеса

Команда занимается разработкой моделей машинного обучения и искусственного интеллекта, которые помогают в работе с физлицами. В основном это касается процессов, связанных с привлечением, развитием и удержанием клиентов. Такие модели позволяют создавать персонализированные предложения (например, кешбэк в действительно необходимых категориях), которые повышают вероятность их использования. Для этого они ориентируются на множество различных параметров — от, собственно, самого продукта и конкретного времени до наиболее подходящего клиенту канала коммуникации.

Инструменты, разработанные командой, позволяют всесторонне изучить клиента. Например, чтобы сделать подходящее кредитное предложение, модели могут оценить уровень его постоянного дохода, чтобы подобрать персональный лимит и ставку по кредиту. Это позволяет создать персонализированный продукт, которым можно воспользоваться в один клик.

За 2024 год прогнозный LTV эффект от работы моделей составляет более 10 миллиардов рублей.

Хаб юридических лиц

Сотрудники этого отдела отвечают за поддержку и совершенствование бизнес-процессов в работе с корпоративными клиентами. Сюда относится не только повышение эффективности и общее улучшение клиентского опыта, но также снижение издержек, всесторонняя оценка клиентов и многое другое. Для этих целей они используют такие инструменты как транзакционный анализ, поиск закономерностей и создание портретов организаций, а также построение моделей для прогнозирования параметров потенциальных и действующих компаний на рынке рисков и ожидаемую доходность.

Эффективная работа команды позволяет генерировать до 15% выручки всего блока Малого и микробизнеса Альфа-Банка — и это лишь измеримый эффект. Некоторые процессы, например, поиск корпоративных клиентов, заинтересованных в определенных сервисах банка, могут работать и без дополнительной аналитики, но не так эффективно. Однако есть проекты, которые в принципе не могут существовать в отрыве от разработок команды. Например, комплаенс-скоринг новых клиентов, который позволяет точно оценить вероятность недобросовестных действий контрагента.

Хаб Риски

Команда тесно работает с Дирекцией рисков, обеспечивая коллег всеми необходимыми инструментами для принятия решения о выдаче кредита. Для этого используются разные модели для оценки вероятности дефолта клиента, прогнозирования баланса на определенную дату и даже предсказания сборов (то есть, если кредит не будет возвращен полностью, то какую сумму в итоге сможет получить банк). На основании всех этих данных не только принимается решение, но и определяются конкретные параметры продукта, например, сумма, процентная ставка и срок.

В тех случаях, когда клиента нужно проверить вручную, модели позволяют выстроить эффективную верификацию. Также разработки команды позволяют не дожидаться фактического закрытия кредита, а сразу же включать его в финансовые результаты на основе прогнозов. Модели рисков используются для расчета резервов и капитала Банка. Модели настолько точны и качественны, что Альфа-Банк прошел строгую проверку Центробанка РФ и стал одним из трех первых банков в стране, которым разрешили рассчитывать капитал не по стандартным нормативам, а на основе собственных прогнозов. Благодаря этому банк сэкономил десятки миллиардов рублей капитала.

Хаб Общекорпоративные функции

Одно из подразделений Центра продвинутой аналитики, которое работает над оптимизацией внутренних процессов Альфа-Банка. Команда занимается интеграцией машинного обучения в таких сферах как HR, маркетинг, цифровой бизнес, комплаенс, кибербезопасность и других. Инновационные решения позволяют лучше управлять человеческими ресурсами, своевременно выявлять риски, обеспечивать безопасность и оптимизировать операционную эффективность.

Например, модели машинного обучения помогают в процессах найма и удержания сотрудников, оптимизации рабочих графиков, распределения нагрузки на колл-центр и повышения удобства банковских сервисов. Одна из моделей позволила оптимизировать доставку банковских продуктов клиентам, благодаря чему удалось отказаться от стороннего решения.

Лаборатория машинного обучения

Команда, главная задача которой — применять наиболее передовые методы моделирования в различных банковских процессах. Это позволяет улучшать качество банковских сервисов и услуг, упрощать и ускорять работу сотрудников Альфа-Банка, уменьшая объём рутинных операций.

Среди ключевых инструментов деятельности Лаборатории — моделирование с помощью глубоких нейронных сетей, а также решение проблем на стыке бизнес-линий (например, когда одно и то же решение может быть переиспользовано несколькими Хабами). В качестве конкретных областей применения:

  • улучшение клиентского опыта (работа с клиентскими отзывами, совершенствование чат-бота, голосового помощника и ассистента оператора),
  • оптимизация core-бизнес процессов внутри банка (совершенствование системы оценки кредитоспособности клиентов, решение задачи оттока клиентов и изучение склонности людей к тем или иным банковским продуктам),
  • автоматизация дата-сайенс процессов внутри банка (работа над сервисом для создания нейросетей ANNA и моделями на основе градиентного бустинга — без непосредственного участия людей).

Нейросети, разработанные Лабораторией, анализируют последовательные данные, например, платежи по картам, кредитные истории и клики в приложениях. Всё это позволяет прогнозировать события — от вероятности дефолта до следующей покупки клиента — и даёт бизнесу возможность принимать более эффективные решения.

ЦПА первым в России автоматизировал обучение моделей

«Одна команда ищет данные, другая их размечает, третья — создаёт модели»

Все эти подразделения в разной степени, в зависимости от специализации, вносят свой вклад в деятельность Центра продвинутой аналитики Альфа-Банка. Однако для некоторых продуктов требуется совместная работа всех команд. Таким, например, стал проект Автоматизированного машинного обучения (AutoML).

Со временем способности моделей машинного обучения и искусственного интеллекта ухудшаются. Их требуется обучать заново. Процесс этот трудоёмкий, требует активного вовлечения аналитиков данных для решения рутинных задач. Оказалось, его можно автоматизировать. В Альфа-Банке создали первую в России полностью автоматическую систему переобучения внедрённых в эксплуатацию моделей — Retrainable AutoML Framework.

Это повысило среднегодовое качество моделей на 19%. Без использования переобучения точность прогнозов моделей начинает радикально падать через полгода использования. Регулярный мониторинг и своевременное переобучение возвращает метрики на исходный уровень. Обычно требуется две-три таких процедуры в год. Финансовый эффект только от первых внедрений — порядка миллиарда рублей.

Кроме того, ЦПА удалось высвободить время аналитиков данных и инженеров машинного обучения, а также избавить от этих задач больше половины дата-сайентистов. А это, в свою очередь, помогло ускорить многие процессы и расширить число и спектр решаемых ими задач.

«Российский финтех — лучший в мире, и мы рады, что наши разработки в области искусственного интеллекта позволяют делать опыт клиентов Альфа-Банка комфортнее, полезнее и безопаснее. Вместе с нашими бизнес-подразделениями продолжаем создавать будущее».

Алексей Каширин, директор Центра продвинутой аналитики Альфа-Банка
25
1
23 комментария