{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Клик за 1 млн рублей и другие превратности машинного обучения

Я Анна Воеводская, специалист по Data Science в «Инфосистемы Джет». Работая на стороне системного интегратора, встречаешь разных заказчиков и наблюдаешь множество особенностей ML-проектов. Я обобщила свой опыт здесь в надежде, что он поможет вам прийти к счастливому внедрению.

Сейчас, кажется, что машинное обучение есть везде: оно таргетирует рекламу в Google Adwords, в Facebook и VK с его помощью формируется умная лента, а в Яндекс.Такси подбираются возможные адреса назначения и прогнозируется время подачи автомобиля (об этом есть прекрасная статья).

Но с ним не всё так просто. Согласно опросу Oxford Economics, 89% респондентов утверждают, что используют ML в своих организациях. При этом 40% из них находятся на стадии исследований и планирования, 26% на стадии пилотирования ML-проектов, 20% используют ML в некоторых сферах бизнеса и только 3% применяют ML в масштабах всей компании.

Почему такая воронка? Одним из самых больших отличий проектов Data Science от других проектов программной разработке является то, что успех зависит от многих параметров: объема и качества данных, существующих бизнес-процессов, уровня зрелости ИТ и др.

Перефразируя Льва Николаевича: все счастливые компании, успешно внедрившие ML в продуктив, похожи друг на друга (хотя бы своим подходом к таким проектам), каждая несчастливая компания, застрявшая на стадии пилотов, несчастлива по-своему.

Формирование в компании культуры работы с данными

Глава Intel Брайан Кржанич в 2017 году сказал, что «данные — это новая нефть». Но ведь важно ещё и знать, как пользоваться этой нефтью.

Компании считают, что данные у них в отличном состоянии. Но правда в том, что это не правда. И DS-проекты как раз открывают, насколько это действительно так: насколько они корректно обрабатываются, насколько полные. Правда жизни: специалисты Data Science примерно 3/4 времени занимаются тем, что собирают, преобразовывают и чистят данные.

Сейчас дальше всех в применении Data Science продвинулись те компании, которые долго и упорно собирали, знали и любили свои данные: банки, телеком, ИТ-компании.

Так МТС прогнозирует, кто из клиентов и когда захочет поменять свой мобильный телефон, оптимизирует работу салонов. Сбербанк снижает ставки по кредитам.

Сейчас в игру вступает промышленность. При этом одни (например, Сибур и Северсталь) набирают свои команды по Data Science, а другие (например, АлРоса или НЛМК) предпочитают комбинировать работу своих отделов и подрядчиков.

С помощью машинного обучения можно оптимизировать расход дорогого сырья, оптимизировать работу производства, скорректировать цены на закупки и т.д. Но для этого необходимо обладать разнообразными историческими данными — чем их больше, тем больше шансы построить модель с высоким качеством прогноза. Например, в случае оптимизации цен закупок важно знать цены конкурентов, стоимость разных вариантов логистики и даже погодные условия в местах закупок.

Но что ещё интереснее, начинается внедрение машинного обучения в сельском хозяйстве. Goldman Sachs прогнозирует, что применение технологий нового поколения способно увеличить производительность мирового сельского хозяйства на 70% к 2050 году. Уже сейчас есть такие начинания, как CattleCare — система, которая отслеживает здоровье коров по капле молока и помогает предотвращать заражения. А компания onesoil.ai уже советует, где какие культуры сажать и как удобрять, основываясь на спутниковых снимках.

Отдельно стоит упомянуть ритейлеров, которые активно внедряют в свои процессы машинное обучение. Например, для Утконос мы исследовали возможности прогнозирования спроса на скоропортящиеся товары, а для Рив Гош выявляли динамический «золотой» сегмент покупателей. X5 Retail Group с помощью ML оптимизирует сегодня выкладку товаров в гипермаркетах, а Wildberries создает товарные рекомендации на сайте.

С другой стороны, машинное обучение входит и в более локальные сферы. Например, один из самых интересных моих проектов был связан со снижением количества аварийных ситуаций в автолизинге.

Оценка целесообразности применения

К сожалению, не все проекты, связанные с применением машинного обучения в компаниях, начинаются с оценок возможного экономического эффекта от внедрения. По рынку ходит много историй про «внедрим машинное обучение, потому что это модно». И это не шутка! На курсе Data Mining In Action я слышала прекрасный пример того, как не надо делать ML-проекты. В одном банке серьезно разрабатывали рекомендательную систему, чтобы из шести предлагаемых услуг выбрать пять, которые будут показываться пользователю в блоке рекомендаций. Но еще ироничней закончилось тестирование разработанной модели на сайте: на блок рекомендаций кликнуло всего 2 человека за месяц, что с учетом бюджета проекта дало стоимость клика порядка 1 млн рублей. Проблема здесь была, конечно, даже не в бесполезности рекомендаций, а в дизайне блока и в его расположении, что испортило бы результат даже с самым лучшим алгоритмом. Возможно, некоторые компании могут позволить себе такое «машинное обучение», но вряд ли какая-то компания осознанно желает получить подобные результаты.

Предвидеть подобную ситуацию помогает хотя бы грубая оценка возможного эффекта от использования модели. Например, в приведенной истории про рекомендации банковских услуг простая предварительная оценка трафика на блоке рекомендаций, реализованном с помощью любого простого правила (например, рекомендовать всем одни и те же наиболее популярные услуги) дала бы понимание, что бороться в этом проекте не за что и лучше его не начинать.

В менее очевидных ситуациях пришлось бы правда что-то посчитать и оценить. Например, если мы решаем задачу прогнозирования оттока клиентов и их удержания, резонный вопрос: что для нас дешевле — удерживать клиента или привлекать нового. Чтобы оценить это, мы можем предположить, насколько хорошо наша модель может находить тех, кто планирует перестать пользоваться услугами компании, оценить вероятность успешности удержания, умножить это все на средний доход с пользователя, вычесть стоимость удержания и сравнить это с аналогичной величиной для привлечения нового пользователя.

Плюсом такой оценки является и то, что из нее сразу возникает понимание метрик, подходящих для оценки качества модели. Например, в нашем примере про отток имеет смысл смотреть на долю людей, действительно ушедших в отток, среди рекомендованных к удержанию моделью, т.к. эта величина сразу же пересчитывается в сэкономленные компанией деньги. Отсюда следует два важных вывода: во-первых, не все метрики одинаково хороши, а во-вторых, метрики, пересчитываемые в деньги, имеют приоритет. При том, что зачастую метрики качества для моделей специалисты Data Science выбирают из соображений своего удобства, а не понятности для бизнеса — важно это понимать.

Не играть в технологии ради технологий

Отдельной темой в современном мире является желание компаний демонстрировать свою технологичность. В ситуации, когда самыми дорогими компаниями считаются технологические гиганты, многие хотят выглядеть «технологичней». В этом контексте внедрять простые правила вместо машинного обучения, разумеется, становится не интересно. Например, автоматизировать ответы службы поддержки можно, разработав чат-бот, а можно просто завести стандартные ответы по некоторым ключевым словам. И даже если вашей компании для обработки 90% обращений хватит второго способа, рассказ о таком решении будет выглядеть менее прогрессивно.

Это обстоятельство хорошо накладывается на то, что специалисты по анализу данных тоже хотят применять свои знания. Соответственно, из вариантов «реализовать простое правило» или «сделать более сложное решение с помощью машинного обучения» специалистам зачастую интереснее второй.

Однако нужно помнить, что сложность решения увеличивает его стоимость, сроки разработки и сложность поддержки. А значит, начав разрабатывать очередного чат-бота для автоматизации техподдержки, можно потратить существенно больший бюджет, чем на автоматизацию ответов по ключевым словам в вопросе и даже ручной разбор не удовлетворенных таким образом обращений. И так со всеми задачами. В итоге, гонка за технологиями ради технологий может привести к тому, что экономика проектов просто не сойдется и внедрение разработанных моделей станет бессмысленным.

В сухом остатке

Для того, чтобы машинное обучение действительно приносило или экономило вашему бизнесу деньги, нужно организовать сбор и хранение данных, оценить, где вам может понадобиться ML и чего вы хотите получить от модели (деньги / клики / ускорения). Начинайте с простых методов и не гонитесь за хайпом.

Если следовать рекомендациям, работа с данными в компании может не только помочь решить ваши задачи, но и вырасти в отдельное направление бизнеса. В ИТ и телекоме это уже происходит. Причем компании в основном из-за масштабируемости нацелены на сервисы: в случае ИТ — для разработчиков (MS Azure, Amazon, Яндекс.Облако), в случае телекома — ближе к корпоративному сегменту (OneFactor).

0
6 комментариев
Написать комментарий...
VR

Статья из серии 'пирожки ни с чем'. Ни конкретных кейсов (понимаю, NDA), ни отсылок. Напоминает "программные" статьи Володина и Медведева. И статьи для конференции в студенческий сборник.

Data Science переоценено? Несомненно. Только вот в летающие автомобили и точность detection покупателей в магазинах около 98% по-прежнему верят. И это ещё с обратной стороны не смотрим, где увлечённые питонисты, которые раньше херачили на Django, решили, что TensorFlow стал моднее и молодежнее.

Сейчас, кажется, наступает охлаждение в экономике и насыщение в Data Science. Последнее, правда, скорее в части бюджетов, но иначе как "завышенные ожидания" к этой области знания относиться сложно.

Ответить
Развернуть ветку
Воеводская Анна
Автор

Действительно, об успешных проектах рассказывают куда охотнее, чем о проектах с неуспешным завершением. Но если вы хотите узнать больше о них, то есть записи failconf на YouTube с прошлого DataFest.

Как раз мысль этой статьи была в том, что Data Science сильный и мощный инструмент, но обращаться с ним нужно осторожно.

Ответить
Развернуть ветку
Dmitry Zagorul'kin

вопрос ниже

Ответить
Развернуть ветку
Dmitry Zagorul'kin
Причем компании в основном из-за масштабируемости нацелены на сервисы: в случае ИТ — для разработчиков (MS Azure, Amazon, Яндекс.Облако), в случае телекома — ближе к корпоративному сегменту (OneFactor).

Не могли бы вы раскрыть этот пассаж подробнее? Не совсем понятно о каких сервисах идет речь.

Ответить
Развернуть ветку
Воеводская Анна
Автор

Указанные компании долго собирали данные, работали с ними, и в итоге у них получились дополнительные сервисы.
Вот у Microsoft появился MS Azure, у Amazon AWS.
Или я не совсем поняла Ваш вопрос?

Ответить
Развернуть ветку
Dmitry Zagorul'kin

Я понял что вы имели ввиду. Спасибо.

Ответить
Развернуть ветку
3 комментария
Раскрывать всегда