Дата-сайентисты и где они обитают: как Райффайзенбанк работает с большими данными

Почему дата-сайентисты в банке работают в разных отделах, какие задачи решают и зачем компании понадобилось Data Science комьюнити.

Дата-сайентисты и где они обитают: как Райффайзенбанк работает с большими данными

В конце сентября состоится онлайн-хакатон Raifhack DS, где аналитики данных разработают алгоритмы, которые будут оценивать стоимость недвижимости. Какие ещё задачи специалисты по DS помогают решать банку, рассказывает лидер DS-сообщества.

Даниил Дранга
Data Science Community Lead, Райффайзенбанк

Я начал карьеру в Data Science со стажировки: попал на нее, когда выиграл всероссийский кейс-чемпионат на втором курсе бакалавриата. Уже пятый год я работаю в Райффайзенбанке. Начинал в платформенной команде, создавал MVP-решения, потом перешел в продуктовую команду и помогал развивать DS-продукты для улучшения пользовательского опыта. С самого начала я активно участвовал в развитии нашего сообщества, сейчас продолжаю заниматься этим уже в роли лида Data Science комьюнити.

Дата-сайентисты: аналитики или инженеры?

Data Science — это область знаний на стыке аналитики, прикладной математики, программирования и обработки данных. Дата-сайентисты умеют преобразовывать большие массивы данных и применять их для решения конкретных задач: поэтому их так ценят в бизнесе.

В самом широком смысле дата-сайентист — это человек, который трансформирует бизнес с помощью машинного обучения. Он анализирует данные, разбирается в бизнес-контексте и генерирует гипотезы по улучшению продуктов. Это сближает его с аналитиками данных и продуктовыми аналитиками. Но кроме гипотез, дата-сайентист разрабатывает модели для решения конкретных задач: пишет программный код, который делает возможным создание, обучение и применение таких моделей непосредственно в процессах и продуктах.

Направления работы дата-сайентиста могут быть очень разнообразным. Вот лишь несколько из проектов, над которыми мы работаем:

  • Разработка алгоритмов для оценки стоимости залоговой недвижимости;
  • Автоматизация выявления мошеннических операций;
  • Разработка чат-бота для подсказок операторам контакт-центра;
  • Автоматическая классификация жалоб и обращений клиентов;
  • Определение оптимальных точек для размещения банкоматов;
  • Автоматическое распознавание сканов и перевод их в структурированный цифровой формат;
  • Подбор оптимального портфеля из паевых инвестиционных фондов под управлением «Райффайзен Капитал», исходя из продуктового профилирования клиента.
Дата-сайентисты и где они обитают: как Райффайзенбанк работает с большими данными

Я занимаюсь Data Science и продвинутой аналитикой в корпоративном блоке. За время работы в банке успел позаниматься самыми разными задачами: от глубокой продуктовой аналитики и построения моделей LTV до реализации полноценного решения автоматического распознавания неструктурированных документов.

Булат Усеинов, Data Scientist, Райффайзенбанк

Очевидно, что для работы с каждым кейсом нужны специальные знания и технологии. Поэтому на всех этапах работы дата-сайентисты взаимодействуют с другими специалистами:

  • Бизнес-эксперты помогают погрузиться в бизнес-контекст и понять доменную область;
  • Продакт-оунеры определяют вместе с дата-сайентистом сценарии использования моделей и критерии качества;
  • Аналитики предоставляют информацию о данных и метриках;
  • Дата-инженеры регулярно собирают данные и настраивают процессы по их объединению и проверке качества, а также обеспечивают к ним быстрый и удобный доступ;
  • Разработчики и DevOps-инженеры помогают реализовать решение в продакшене.

Какие типы задач мы решаем

Недавно лидеры нашего Data Science комьюнити провели исследование: они проанализировали около 6 тыс. рабочих часов и посчитали, сколько времени уделяют тем или иным задачам. Им было важно проверить, что у дата-сайентистов остается время на новые гипотезы и задачи и выяснить, нуждается ли команда в новых специалистах. Вот такие результаты получились для одной из платформенных команд, которая работает над решениями для разных продуктов:

Дата-сайентисты и где они обитают: как Райффайзенбанк работает с большими данными

А вот примеры задач из разных сегментов:

  • Research: изучить state-of-the-art подходы к применению активного обучения в диалоговых системах: выяснить, какие данные необходимо разметить для чат-бота, чтобы максимально повысить его качество при ограниченном количестве размечающих людей;
  • Productionalize: «обернуть» модель машинного обучения в веб-сервис Fast API: разработать небольшое веб-приложение, в которое можно вносить нужные данные и получать ответы от модели;
  • Modeling: подобрать и разработать архитектуру нейронной сети, которая будет классифицировать текстовые обращения клиентов и выделять из них именованные сущности;
  • Data Preparation & Data Understanding: изучить имеющиеся данные по снятиям и пополнениям в банкоматах сети и историю операций инкассаторов; реализовать загрузку и предобработку необходимых данных;
  • Refactoring: улучшить написанный код в продукте, уменьшить технический долг;

  • Business Understanding & Customer Communications: разработать сценарии для модели-суфлера, который «подсказывает» ответы операторам в контакт-центре. Обсудить риски, продуктовые метрики и экономическую целесообразность проекта;

  • Model Support: проанализировать работу и внести необходимые изменения в модель, находящуюся на поддержке у команды. Например, скорректировать алгоритм по снятию наличных денег в банкоматах после введения локдауна и массового перехода на удаленку.

В Райфе я занимаюсь разработкой DS-решений в рисках. Задачи дата-сайентиста развивают внимательность к деталям и способность аргументировать решения. А главное, ты можешь увидеть результат своей работы на реальных цифрах: напрямую влиять на бизнес. Есть и неочевидные плюсы: модель, например, проходит несколько уровней проверки — и проходя их вместе с ней, ты заметно развиваешь мастерство публичных выступлений.

Игорь Вахламов, Lead Data Scientist, Райффайзенбанк

Почему у нас нет отдела дата-сайенс

Организовать работу специалистов по DS в крупной компании можно двумя способами: собрать их в самостоятельный отдел (дирекцию, департамент) или распределить в продуктовые и платформенные команды внутри компании. Мы, например, начинали с первого подхода, но по мере роста команды и количества задач плавно перешли к децентрализации. Сегодня наши дата-сайентисты работают непосредственно в бизнес-доменах вместе с продакт-оунерами, разработчиками, дата-инженерами и другими специалистами.

Основные преимущества децентрализованного подхода:

  • Ориентация на конкретные цели продукта/домена. Результат работы легко оценить с помощью бизнесовых и продуктовых метрик компании. Модели не создаются ради моделей (нет «работы в стол») и их больше не нужно «продавать» бизнесу.
  • Гибкость и эффективность коммуникаций. Для создания качественных DS-продуктов необходимо участие людей с разными компетенциями. И плоские кросс-функциональные команды максимально упрощают и ускоряют взаимодействие специалистов.
  • Погруженность в доменную область. Основное отличие «плохих» моделей от «хороших» и главная причина низкого процента успешно внедренных DS-решений в индустрии — это недостаточная погруженность в экспертную область. Без понимания работы сотрудников контакт-центра, банковских продуктов и операций невозможно создать хорошего чат-бота, а без знания мошеннических схем сложно разрабатывать алгоритмы для борьбы с мошенниками.

Выбирая децентрализованную оргструктуру, мы понимали, что столкнемся с рисками:

  • Специалисты работают в разных направлениях, рано или поздно начинается рассинхрон: появляются отличия в критериях найма и в возможностях карьерного роста.
  • Дата-сайентистам в разных командах сложнее обмениваться опытом, технологиями и новостями, обсуждать задачи и подходы. Особенно это актуально для специалистов в маленьких командах.
  • Если хочется начать работать в другой доменной области, необходимо менять команду — внутренние переходы становятся сложнее.
  • Необходимо, чтобы кто-то осуществлял консалтинг по DS для команд, где нет своих дата-сайентистов, а также помогал нанимать первых лидов/сеньоров в команду.

Чтобы митигировать эти риски, мы создали DS Community: сообщество, которое помогает нам оставаться автономными, но при этом быть на связи, расти и решать разные задачи бизнеса вместе.

Когда я пришел в Райф, наша команда специализировалась на проверке гипотез для разных подразделений, которым не хватало собственной экспертизы в DS. Было круто постоянно знакомиться с новыми бизнес-процессами и искать решения по оптимизации. Дефицит DS-экспертизы в бизнес-юнитах быстро сокращался, и после удачного проекта в области OCR мы вместе с командой решили сфокусироваться на автоматическом распознавании документов — ниша оказалась «горячей», наши модели моментально улетают в прод. В целом, в Data Science мне больше всего нравится находить нестандартные решения — ведь для методов «из коробки» есть AutoML:)

Дмитрий Жванский, Senior Data Scientist, Райффайзенбанк

Сила комьюнити

Сегодня в комьюнити входят больше 50 дата-сайентистов. Все они участвуют в развитии ключевых направлений в банке: сервисов для физических лиц и корпоративных клиентов, торговли на рынках капиталов, управления рисками, казначейства, аудита и комплаенс.

Оставаться на связи, помогать друг другу и расти нам помогают разные активности и ивенты:

  • На bi-weekly (это общая встреча дата-сайентистов раз в 2 недели) мы обмениваемся опытом по использованию инструментов и обсуждаем новые кейсы.
  • Организуем общие встречи с другими странами присутствия Группы Райффайзен: например, когда в российской команде стартовала разработка чат-ботов, мы советовались с коллегами из Австрии. Они в это время работали над собственным решением и приезжали обменяться опытом.
  • Проводим брифинги, технические интервью соискателей и онбординг новых дата-сайентистов.
  • Предлагаем для всех команд единые правила найма (стандартное техническое интервью) и систему оценки скилов для решения вопроса о повышении.
  • Проводим централизованное обучение на актуальные темы: например, продвинутые методы A/B-тестирования, поддержание моделей ML в проде и инструменты для распределенного ML.
  • Раз в год проводим соревнование между всеми командами банка. До пандемии выезжали на природу — сейчас временно переместились в онлайн.
  • Мы взаимодействуем со смежными сообществами: с дата-инженерами, Python Community. Например, проводим совместное код-ревью.
  • Предоставляем DS-экспертизу для команд, в которых нет своих дата-сайентистов.
  • Помогаем перейти в Data Science сотрудникам из других направлений и, наоборот, дата-сайентистам выйти при желании на другие должности в компании.
  • Организуем открытые соревнования и хакатоны. В сентябре, например, мы проведем Raifhack DS: предложим участникам разработать алгоритм оценки стоимости коммерческой недвижимости.

Больше о Data Science комьюнити мы рассказывали в нашем блоге на Хабре: почитать, как живут и чем дышат дата-сайентисты Райфа, можно здесь.

1717
29 комментариев

Это все наверное очень современно.... Но вот просто сменить номер телефона и прописку для дебетовой карты Райфайзен... Это что-то с чем-то

6
Ответить

а еще у них в веб версии кабинета, при пополнении вклада, в поле счет списания 
больше недели отображался какой-то SVG файл.
Может просто нанять норм программистов?

2
Ответить

Катерина, здравствуйте! Сменить прописку можно прямо в приложении Райффайзен Онлайн. Что касается смены мобильного номера, то если есть доступ к старому, можно также поменять в приложении. Если же доступа нет, то провести идентификацию поможет транзакция в банкомате (например, проверка баланса) и на горячей линии поменяем на новый номер :)

Ответить

Крутой лендинг. Спасибо за статью, интересно :)

6
Ответить

Рады, что понравилось :)

2
Ответить

Вы спам смс можете перестать присылать?

2
Ответить

Что вы имеете в виду? 

1
Ответить