Превратить Data Science в деньги

Сотрудники McKinsey рассказывают о своей работе.

Как с помощью больших данных fashion-бренды создают новые коллекции, а банки улучшают опыт своих клиентов? Алексей Белкин, Олег Корнышев, Александр Лабуть из McKinsey рассказывают о задачах консультантов в Data Science и реализованных кейсах.

Алексей: Некоторым кажется, что консалтинг сегодня — не самая прогрессивная среда. Хотя последние 90 лет он всегда был в авангарде всех основных бизнес-инноваций. Например, штрих-коды на товарах, которые сканируют на кассах в супермаркетах — продукт одного из консалтинговых проектов.

Если очень упрощенно, основная задача консультанта — найти инсайт (интересную новую возможность или причину давней проблемы в бизнесе), понять, как улучшить бизнес клиента с учетом этой информации, чтобы принести реальный финансовый эффект, затем донести выводы клиенту в удобной для него форме, и, если требуется, помочь с внедрением изменений. Сегодня поиск инсайтов без использования больших данных и углубленной аналитики почти невозможен в большинстве индустрий.

Алексей Белкин

Как появилось это направление в McKinsey?

Алексей: Первые Data Science хабы в McKinsey появились в Мадриде и Дюссельдорфе много лет назад. В московском офисе первые Data Science консультанты начали работать 7 лет назад. За последние полтора года количество Data Science проектов сильно выросло: сейчас каждый третий новый проект так или иначе связан с углубленной аналитикой. Выросла и наша команда: сейчас в ней уже несколько десятков Data Science консультантов, Data-инженеров и архитекторов, и к концу года мы планируем это количество удвоить.

А чем специалист по данным занимается конкретно сейчас?

Олег: В Фирме есть два карьерных пути: классический консультант общего профиля (мы называем таких сотрудников «дженералист» — от англ. general) и консультант с компетенциями в Data Science. Ключевая разница — Data Science консультант обладает более широкой и глубокой экспертизой в работе с данными. Какие данные потребуются, как и где эти данные получить, что именно и как должна предсказывать модель, каким будет план действий, то есть, как изменить бизнес-процессы клиента, чтобы результаты моделей и анализа принесли деньги, как это сделать не один раз, а «поставить на поток» — одни из многих вопросов, на которые в ходе проекта отвечает Data Science консультант.

Какие именно компетенции требуются от специалистов по Data Science для работы в консалтинге?

Алексей: В первую очередь это глубокие знания и практический опыт в Data Science. Во-вторых, это soft skills — возможность услышать бизнес-задачу, способность объяснить готовую модель клиенту. Все кандидаты отлично разбираются в математике, но из 1500 заявок, пришедших за последний год, у большинства были проблемы именно с коммуникацией. Поэтому когда мы видим у студентов последних курсов потенциал, мы берем их на стажировку и обучаем дополнительным навыкам. Через пару лет работы в команде они уже спокойно могут выступать перед генеральными директорами крупнейших компаний и рассказывать о результатах своих анализов на языке бизнеса.

Олег Корнышев

Олег: Построить хорошую модель на основе вводных данных — лишь половина успеха. Другая половина кроется в понимании того, как её внедрить в ежедневные бизнес-процессы клиента. Например, в одном из проектов мы сделали хорошую предсказательную модель, которая рекомендовала, какой продукт предложить B2C-клиентам. Но на её основе стали отправлять всем клиентам одну и ту же типовую смску в одно и то же время. Неудивительно, что эффект новой системы оказался гораздо ниже, чем мы могли получить. В 90% случаев, когда мы сталкиваемся с проблемами в наших Data Science проектах, решение — в области сбора данных, в понимании картины целиком, включая сам бизнес-процесс, а не просто в точности моделирования.

С какими индустриями придется работать?

Олег: Московский офис McKinsey — один из главных хабов по Data Science наряду с Мадридом, Лондоном и Нью-Йорком. Мы работаем над проектам в России и СНГ, Турции, на Ближнем Востоке и в Африке с привычными Data Science индустриями: телеком-операторами, банками, страховыми компаниями и ритейлом. Ещё два направления, которые нам очень интересны, и в которых мы не так давно начали работу: «умные города» и тяжелая промышленность. Множество компаний из «тяжелых» индустрий не так давно установили массу датчиков на различных этапах производства и собрали полезные данные. Теперь пришло время использовать эти данные для повышения эффективности.

Давайте пройдемся по основным задачам в сфере B2C. Можем начать с ритейла

Алексей: В ритейле самые распространенные задачи — управление скидками и ассортиментом, ценообразование, а также управление цепочкой поставок: от планирования карты складов с помощью углубленной аналитики до маршрутизации грузовиков и отслеживания процессов на складе. Также всё чаще мы работаем над моделями по созданию персонализированных предложений в рамках CVM (Customer Value Management).

Олег: Если говорить о ритейле, Data Science также помогает понять, где стоит открыть новый магазин. Например благодаря геоданным (кто проживает в этом районе, сколько стоит квадратный метр жилья, кто из конкурентов работает рядом) можно построить модель, которая будет подсвечивать потенциально удачные места для новой точки.

Олег: Если перейти к банковскому сектору, модели здесь можно поделить на три секции. Первая — повышение выручки: например, Data Science помогает ответить на 4 ключевых вопроса — кому предложить, что предложить, когда и как. Вторая — риск-менеджмент: например, дать кредит или нет, как избежать закрытия нулевых продаж ради выполнения плана и вовремя выявлять потенциальные случаи мошенничества. Третья секция — эффективность, к примеру, где поставить банкомат, как эффективно поддерживать нужный уровень сервиса.

Алексей: В телеком-индустрии многие кейсы пересекаются с теми, которые делаются для банковского сектора и ритейла. Но для операторов ещё очень важно планирование сети — на поддержку и ремонт мобильных станций тратятся миллиарды рублей каждый год. И это достаточно сложный вопрос — нужно решить, как распределить расходы таким образом, чтобы с одной стороны не выйти за бюджет, а с другой — максимально улучшить связь для абонентов.

Как устроена команда проекта, в которой работает специалист по Data Science? Приведите примеры задач.

Алексей: Команда каждого проекта в McKinsey включает сотрудников трёх ключевых ролей: члены команды (Data Science консультанты, консультанты общего профиля), руководитель проекта и партнёры. Часто к проектам привлекаются международные эксперты — опытные специалисты узкого профиля. Также у всех сотрудников McKinsey есть доступ к огромной базе знаний со всего мира.

Алексей: Если более детально остановиться на задачах Data Science консультанта в команде McKinsey, то, например, в проекте по оптимизации промо-кампаний в ритейле он или она могут отвечать за разработку модели оценки эффекта предыдущих промо-кампаний. Сложность здесь заключается в том, что даже если продажи реально выросли, это может быть обманчивым показателем. Нужно найти множество закономерностей, чтобы понять, как всё было на самом деле. Специалист по Data Science будет полностью вести это направление, понимать потребности клиента, разрабатывать алгоритм и предлагать механизм его внедрения в ежедневную работу клиента.

Консультант-дженералист может параллельно отвечать за внедрение формата промо-комитета — события, где обсуждаются итоги кампании и дальнейшие действия.

Олег: В прессе и на форумах преимущественно обсуждают новейшие инструменты Data Science. Подобные проекты у нас составляют 10-20% от общего объема работы, так как в большинстве случаев для достижения бизнес-эффекта, который поможет увеличить прибыль или спасти компанию, достаточно классического Machine Learning. Часто клиент сам настаивает на использовании менее сложных инструментов — нужна модель, которая быстро и качественно подскажет необходимые решения, но не станет при этом «черным ящиком» или «музейным экспонатом».

Иногда нам говорят: «Почему только классический Machine Learning, а где сложное и интересное: Computer Vision, NLP, нейросети?» Наш ответ — технология должна быть соразмерна задаче: сейчас подавляющее большинство российских компаний могут получить существенный финансовый эффект с помощью более простых алгоритмов. Через 3-5 лет картина изменится, и алгоритмическая сложность проектов будет нарастать.Но это вовсе не означает, что мы не пользуемся передовыми разработками. Сейчас мы активно работаем, в том числе, с нейросетевыми технологиями: в частности, на одном из текущих проектов для решения задачи клиента оперируем свёрточными нейронными сетями для анализа временных рядов.

Александр Лабуть

В чём плюсы и минусы работы классического специалиста по Data Science в McKinsey, консалтинге?

Александр: В первую очередь McKinsey даёт специалисту по Data Science возможность поработать в разных индустриях и посмотреть, в чем специфика анализа данных в каждой из них. Также мы можем отследить, как разработанная модель применяется на практике, и на основе этого понять, как сделать её максимально полезной.

Как правило, в компаниях вне консалтинга специалист по Data Science отвечает за одно направление, и это усложняет карьерный рост. В McKinsey карьерный путь до партнера четко структурирован и известен всем с первого дня работы.

А могут ли люди сами выбирать на каких проектах работать?

Александр: Да, каждую неделю стартует много проектов, и у нас есть выбор. Специалист выбирает команду, с которой ему или ей нравится работать, у которой хочет чему-то научится. Если что-то не сложилось, после завершения проекта можно перейти в другие команды.

Каким был один из самых нетривиальных проектов? Слышала, вы что-то делали для fashion-индустрии

Олег: Да, для одного из fashion-брендов мы делали проект по управлению коллекциями и ассортиментом: помогали построить прогноз, какую одежду производить. Мы обработали большой объём информации с помощью Computer Vision, чтобы понять, что люди носят: цвет, стиль, сочетание. Проанализировали десятки тысяч отзывов покупателей, чтобы разобраться, что им нравится в ассортименте. Далее провели анализ коллекции клиента, постарались оценить отклик аудитории на разные предметы ассортимента. Для этого нам пришлось разработать и обучить модель по определению стилей и цветов одежды по фотографиям. И, конечно, увязали эти данные с продажами. Вся эта информация помогла скорректировать направление, в котором будут создаваться новые коллекции бренда.

На этот проект ушло две недели, плюс неделя на оформление инсайтов. Раньше компании, чтобы получить подобную информацию, проводили несколько месяцев за изучением фокус-групп, наблюдениями, смотрели статистику по продажам.

Можете привести пример проекта с банком?

Александр: Последние два года мы работали над проектом трансформации клиентского опыта в одном из крупнейших центрально-азиатских банков, где достаточно большая часть была связана с Data Science.

Нам удалось выстроить целый бизнес-процесс — от моделей, которые говорят о том, насколько клиент склонен купить продукт в этом банке, до быстрого выведения этой информации в фронтальные каналы: call-центр, смс-оповещения. Конверсия по каналу call-центра благодаря этим моделям увеличилась в 4,5 раза, и клиент получил большой рост показателей по совершённым сделкам. Мы создали комплекс моделей, которые определяли не только оптимальное для клиента продуктовое предложение и вероятность, с которой он им воспользуется, но и оптимальное время контакта и приоритетные каналы контакта. Весь проект — от разработки всех моделей до полной интеграции в каналы банка — был запущен за 12 недель.

А есть ли примеры использования Data Science в промышленности?

Александр: Недавно мы одними из первых на российском рынке сделали для крупного клиента из нефтегазовой сферы решение по предиктивному обслуживанию оборудования его завода, которое помогло нам предсказать и предотвратить более 70% потенциальных отказов производства и сэкономить клиенту сотни миллионов рублей.

А для крупного металлообрабатывающего комбината мы смогли спрогнозировать качество производства металла. Это была непростая задача, ведь даже сотрудники, работающие на заводе многие годы, не всегда могут понять, какие действия ведут к ухудшению или улучшению качества полученного материала. Мы использовали модель анализа временных рядов, которая помогла обучиться на исторических данных этого процесса и понять, какие же временные сдвиги и текущие решения персонала могут повлиять на качество металла в будущем. Для анализа временного ряда мы использовали ансамбль из нескольких линейных регрессий, предсказывающих некоторые ключевые показатели производственного процесса, и градиентного бустинга.

В тяжелой промышленности у нас нет возможности сделать рандомизированную обучающую и тестовую выборку. Производственные процессы непрерывны, и нам нужно всегда оставлять временной горизонт после обучающей выборки. И здесь очень важно сделать правильную предобработку данных, закодировать максимальное число признаков в произвольных окнах до того события, которое мы таргетируем. Чтобы потом модель могла понять, как эти вещи правильно влияют на процесс.

Важно отметить, что отношения метрики качества в тяжелых и классических индустриях отличается. Например, если Джини в скоринговой модели в банке составляет 0,55 — значит, мы построили скорее среднюю модель: смогли из наших данных выделить лишь часть полезной информации о том, будет ли дефолт или нет. В то же время, если на производстве в задаче регрессии нам удается достичь значения R-квадрат около 0,7-0,75 — это прекрасный результат. Это значит, что мы начинаем контролировать нашу вариацию на 70-75%. Безусловно, остаются вещи, для которых у нас нет датчиков и информации — например, это решения инженеров, которые нигде не фиксируются, и модель этого не видит. Но даже если мы на 50% контролируем то, что раньше не контролировали совсем, это уже даёт сильнейший uplift и денежный эффект.

Если вы хотите работать с технологиями машинного обучения и искусственного интеллекта, решая прикладные бизнес-задачи, обратите внимание на открытые позиции в McKinsey:

— Data Science консультант: подать заявку

0
12 комментариев
Написать комментарий...
Dmitry Bushkov

Прочитал пост и сразу вспомнил анекдот про овцу и консультанта.

К пастуху, пасущему стадо овец, подъезжает на машине какой-то тип, высовывается из окна и говорит:

- Если я тебе скажу, сколько у тебя овец в стаде, ты мне подаришь одну? Немного удивленный пастух отвечает:

- Конечно, почему бы и нет.

Тогда этот мужик достает ноутбук, подсоединяет его к мобильному телефону, устанавливает связь с Интернетом, заходит на сайт НАСА, выбирает спутниковую связь GPS, выясняет точные координаты места, где он находится, и отправляет их на другой спутник НАСА, который сканирует эту местность и выдает фото со сверхвысоким разрешением. Затем этот тип передает снимок в одну из лабораторий Гамбурга, которая через несколько секунд отправляет ему мыло с подтверждением того, что снимок был обработан и полученные данные сохранены в базе данных. Через ODBC он подключается к базе данных MS-SQL, копирует данные в таблицу EXCEL и начинает производить расчет. Через несколько минут он получает результат и распечатывает в цвете 150 страниц на своем миниатюрном принтере. Наконец он говорит пастуху:

- У тебя в стаде 1586 овец.

- Точно! Именно столько овец у меня в стаде. Что ж, выбирай. Мужик выбирает одну и грузит ее в багажник. И тут пастух ему говорит:

- Послушай, а если я угадаю, кем ты работаешь, ты мне ее вернешь? Немного подумав, мужик говорит:

- Ну давай.

- Ты работаешь консультантом, - неожиданно выдает пастух.

- Это правда, черт возьми! И как же ты догадался?

- Это было легко сделать, - говорит пастух, - ты появился, когда никто тебя не звал, хочешь получить плату за ответ, который я уже знаю, на вопрос, который тебе никто не задавал, и к тому же ты ни хрена не смыслишь в моей работе. ТАК ЧТО ОТДАВАЙ ОБРАТНО МОЮ СОБАКУ.

Ответить
Развернуть ветку
Алексей Свищев

"Знание математики", "классический ML" ... Основы статистики, ито для галочки, немного алгебры. Python и несколько пакетов: pandas, numpy, sklearn, xgboost, bokeh. Иногда что-нибудь специфическое данным в задаче. Все. Тупик профессионального развития. 95% таких задач почти полностью автоматизируются. Причем велосипед изобретают все компании и потом продают его под видом "прорывного решения". Сделать это может аккуратный студент - стажер. Некоторое время назад, основным победителем ml - конкурсов (по содержанию похожих на такие кейсы) был офис менеджер, который просто автоматизировал основные этапы обработки данных и собирал по 100-500 моделей в композицию. Чтобы провести реально глубокую экспертизу и разработать хорошее решение нужна команда и время, а это дорого. И не везде это умеют. Особенно, когда "штат за год удваивать" надо.

Ответить
Развернуть ветку
Ако Чавчавадзе

Сроки внедрения какие-то нереалистичные. Как будто лишь бы сделать.

Ответить
Развернуть ветку
Олег Акимов

McKinsey, собственно, обычно так и работает :)

Ответить
Развернуть ветку
Дмитрий Будков

Прототипируют :)

Ответить
Развернуть ветку
Ivan Struzhkov

"Джини в скоринговой модели в банке составляет 0,55 — значит, мы построили скорее среднюю модель: смогли из наших данных выделить лишь часть полезной информации о том, будет ли дефолт или нет. В то же время, если на производстве в задаче регрессии нам удается достичь значения R-квадрат около 0,7-0,75 — это прекрасный результат."

Я бы после этого высказывания сильно задумался бы на стороне кандитата. Откровенная техническая неграмотность человка, написавшего это - очень отпугивает.

Дата саенс в макинзи - модно, стильно молодежно.

Ответить
Развернуть ветку
Autobot

Собственно все что я видел как оезультат работ маккинзи - простейшая банальность сделанная джуниорами.
Дата, не дата, результат банальный и поверхностный.

Ответить
Развернуть ветку
Nick Chernykh

Про предиктивную аналитику на заводе очень смешно. Это любой пакет программный по управлению заводом может. Даже с учетом стоимости контракта маккинзи подешевле выйдет

Ответить
Развернуть ветку
Алексей Свищев

И по кругу, от задачи к задаче. Растить мешки под глазами.
https://www.youtube.com/watch?v=Z3XmVrIHe3c&list=PLTlO6nV_TaGCcWb4A5Zm4VXAd2scFJ8Vj&index=65&t=0s

Ответить
Развернуть ветку
Дмитрий Каменев

2 недели на внедрение проекта по Fashion такой сложности - похоже на бред или опечатку. Это даже не из разряда "лишь бы сделать" - за такой период даже формулировку ТЗ не согласовать.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Khabib96

метод глубокого матана-предсказабельность 70%
метод тыка-65%
штош

Ответить
Развернуть ветку
Alexander Kalinnikov

Статья хорошая, интересная. Комментарии по большей части - необъективные. Жаль, что сотрудники McKinsey никак не реагируют на комментарии и выключились из процесса обсуждения своей же статьи. Не спать!

Интересно также, как конкретно на цифрах помогли решения для промышленных компаний. С точки зрения показателей и SMART. Индекс Джини в финансовой отчетности не покажешь!

Ответить
Развернуть ветку
9 комментариев
Раскрывать всегда