Почему данных много не бывает — рассказывает директор Департамента аналитики больших данных Банка «Санкт-Петербург»

Меня порой просят рассказать про какие-то аспекты профессиональной деятельности и обязательно в сценарии «как я чуть не умер», но с happy end.

Одной из таких историй вполне могла бы быть история создания в Банке «Санкт-Петербург» гильдии машинного обучения. Могла бы, но история еще не закончилась), хотя некоторые mile stones уже позитивные.

Активное внедрение технологий машинного обучения в Банке началось буквально пару лет назад. Это не значит, что до этого ML не применялся. Конечно, некоторые классические задачи (например, кредитный скоринг) и раньше решались методами машинного обучения, но пару лет назад было создано отдельное управление, призванное активно внедрять ML и методы прогнозирования в бизнес-процессы Банка.

Так вот, я думаю, как и все, кто ринулся в это направление, мы недооценили сложность решения одной задачи – про полноту и качество данных. То есть мы знали, что с данными плохо, но не знали, насколько и каких усилий будет стоить эту задачу решить. В результате – переход на новую архитектуру работы с данными в широком смысле этого слова, двухлетний проект от сбора, хранения и обработки данных до появления промышленной платформы ML. В процессе — много раз пришлось отвечать на вопрос «зачем это все», ведь утвержденный однажды, проект подвергался актуализации снова и снова.

Сейчас работа идет сразу по нескольким направлениям: и достраивание архитектуры данных (проект на финальной стадии), и создание и применение ML моделей. За эти пару лет мы серьезно продвинулись. Активно развивается инфраструктура и практики работы с данными. Наряду с собственными моделями, мы работаем с партнерами – например, Университет ИТМО серьезно усиливает нашу математическую экспертизу и ускоряет проверку гипотез. Области использования моделей, думаю, классические: борьба с оттоком клиентов – есть семейство моделей, которые не только прогнозируют вероятность оттока, но и подбирают для него оптимальное предложение для удержания; кросс-продажи – аналогичный комплекс моделей и оптимизационная логика поверх них определяет наилучший продукт и наилучший канал для продажи выбранного продукта; всевозможные LookaLike модели выявления клиентов со схожими паттернами для тех или иных целей и многие другие. В общем, все как у всех, но учитывая наши масштабы — мы очень эффективны)

Конечно, мы продолжим движение. Развитие инфраструктуры позволит работать с новыми данными, а данных никогда не бывает много. Плюс обеспечит лучшую полноту и качество данных. Бэклог новых моделей тоже никогда не бывает пустым – и кроме новых прогнозных моделей, хотим использовать симуляционные и оптимизационные модели, которые позволят перейти от предиктивной аналитики (отвечающей на вопрос «что будет?») к аналитике предписывающей (вопрос «что надо сделать, чтобы случилось то, что нужно нам?»), что выглядит достаточно сложным, но очень многообещающим шагом вперед.

А размышляя о том, какие трудности могут ждать в будущем – я все больше прихожу к мысли, что основная сложность останется на Человеке и на его способности интерпретировать данные и принимать решения. Данных становится все больше, и все больше инструментов аналитики. Но вот что я вижу сейчас и что точно будет только усиливаться – это вопрос интерпретации. В итоге, все равно есть Человек, его гипотеза и его вера в правильность вывода.

#машинноеобучение #bigdata #анализданных #технологии #программирование