Как начать зарабатывать на ML. Практика

Итак, мы остановились на том, что подходить к бизнесу нужно на многих этапах. И пришли к выводу, что машинное обучение начнет приносить прибыль только в момент полного понимания процесса – не идеального мира, который описывают в учебниках, а реального, где невозможно не прислушиваться к мнению и нуждам коллег.

Сергей Щербаков
Руководитель управления архитектуры данных и бизнес аналитики банка "Санкт-Петербург"

Давайте конкретнее, но опять же с основ. Многие специалисты в области ML знают методологию CRISP-DM. В свое время для меня это был базис для любого плана работы над проектами в области анализа данных:

Как начать зарабатывать на ML. Практика

Но процесс на ней показан в его идеальном виде, и вроде как от бизнеса требуется только постановка задачи. Наверное, предполагается, что результат бизнес употребит автоматически.

В жизни это не так, и надо четко осознавать, что по факту каждая модель проходит в том или ином виде 3 стандартные стадии:

1. Стадия дизайна или PoC (Proof of Concept) – подтверждение концепта. Это стадия работы «на коленке», когда основная цель – подтвердить, что поставленная бизнес-задача имеет решение на имеющихся данных. Результатом этой стадии чаще всего является пилотный запуск, который позволяет оценить результат для бизнеса.

2. Стадия внедрения (по факту это мини-проект), на которой и происходит внедрение модели в бизнес-процесс. Результат – то, что бизнес начинает уверенно использовать результаты ML-модели в работе.

3. Операционная работа: регулярные запуски, переобучение, мониторинг и вот это все. Результат очевиден – качественная работа модели и главное – решение поставленной бизнес-задачи с заданным SLA. Собственно, деньги – они здесь.

Понятно, что есть еще работа над постоянным улучшением, но предлагаю это рассматривать уже как следующую задачу с аналогичными стадиями процессов работы.

Как начать зарабатывать на ML. Практика

И как это ни странно (или страшно?) звучит, но с бизнесом надо общаться на всех этих стадиях. Просто на каждом этапе жизненного цикла это будет несколько разная постановка вопроса:

- На первом этапе «Business Understanding» — это именно понимание бизнес-задачи и оценка: а можно ли эту задачу хотя бы в теории решить методами машинного обучения. Ведь если задача состоит из уникальных операций или статистики откровенно мало (а в худшем случае она просто не собирается), то говорить о машинном обучении просто невозможно — машине будет не на чем учиться. Такие задачи и должны отсеиваться на этом уровне общения с бизнесом.

Теоретически можно и на этом этапе обсудить с бизнесом детали встраивания модели в работу: обогащение результатов доп.данными и вот это все. Но если говорить серьезно, то уверенности, что задача будет решена в самом начале первого этапа, ни у кого нет – и данных может не хватить, и задача может оказаться не решаема, и пилот может показать, что люди справляются лучше. Плюс, в некоторых задачах принцип «пока не попробуешь – не поймешь» тоже работает, и многие нюансы всплывают на этапе пилота. Поэтому на первой стадии уходить с бизнесом в детали зачастую смысла нет.

- На второй стадии у вас на руках уже есть:

  • модель с понятным качеством (и все, что прилагается к этому: понимание данных, источники, атрибуты и т.п.);

  • проведенный пилот с опытом: как оно прошло, кому что передавалось, в каком объеме, каким способом и какие грабли были;

  • и главное – у вас есть подтвержденный бизнес-результат.

Так что здесь основная задача – совместно с бизнесом систематизировать полученный опыт и сформировать «Business Understanding» следующего уровня – как бизнесу будет удобно использовать модель на регулярной основе, чтобы получать с нее деньги.

Плюс, не забываем – бизнесу явно понадобится помощь в проработке целевого бизнес-процесса с использованием модели, ведь инструментом надо уметь пользоваться, поэтому на этой стадии нужна активная «просветительская работа». Людям в принципе характерно бояться всего того, что мы не понимаем, поэтому надо показать «модель лицом» и сделать ее понятной для пользователя. Чем меньше «черного» будет в этом «ящике» – тем лучше.

- Последняя стадия – Операционная работа. С одной стороны, тоже все понятно: регулярные запуски или онлайн сервис, мониторинг, как минимум, доступности и работоспособности. Хорошо бы добавить мониторинг данных на входе и прогноза на выходе. Может возникнуть комментарий – «так, а при чем тут бизнес? Работает – не трогай». Но это не так. Для бизнеса на этом этапе надо добавить дашборд по отражению бизнес-эффекта от внедрения модели. И чаще всего это очень непросто – поставить доказательства эффективности подхода на регулярный поток. Зачастую это регулярные А/В тесты, анализ аплифта и вот это все. Зато в ответ вы получаете универсальный инструмент, который показывает экономическое обоснование вашей работы, мерило бизнесовой адекватности модели, обоснование критичности инфраструктуры для ML и еще кучу всего полезного.

Если суммировать все описанные выше стадии, то простая схема CRISP-DM превратится в какой-то вентилятор:

Как начать зарабатывать на ML. Практика

Соответственно, понимая весь этот путь, который надо будет пройти для того, чтобы начать зарабатывать деньги на ML, во время самого первого общения с бизнесом стоит задать вопрос – а вы верите, что мы его сможем пройти? С оглядкой на все особенности вашей конкретной инфраструктуры, имеющиеся кадры и бизнес-процессы с одной стороны. И потенциальный эффект – с другой. Если ответ «нет» – то даже и не начинайте, а поищите другое применение своим силам. Если ответ «да» – то дерзайте, но не забывайте регулярно общаться с бизнесом, чтобы и они не забывали про свое «да», и вы шли с бизнесом в одном направлении. Тогда и доля успешно внедренных проектов увеличится, и на ML тоже получится заработать.

88
1 комментарий

А где здесь практика-то? Очередная водичка про теорию. "Надо сделать это, надо сделать то, надо, надо, надо...".
А что сделано-то? Где фактура? Какие реально осуществленные шаги позволили заработать и на чем? И, главное, сколько?
Вы бизнесу вентилятор продали? У меня есть подозрение, что оно им найух не нужно, вентилятор ваш.
Содержание статьи и ее название - классические взаимоисключающие параграфы.
И вообще, судя по трем статьям автора, тот еще любитель пословоблудить и придать значимости пустому месту.

4