Идеальная работа отдела Data Science

В этой статье я поделюсь опытом улучшения качества работы и повышения прозрачности работы отдела DS. Понятно, что универсальной модели отдела нет хотя бы потому, что роль машинного обучения может варьироваться от ключевого актива бизнеса до вспомогательной функции. Все же я надеюсь, что многие найдут в статье полезные идеи или ответы на незаданные вопросы. Поехали!

Во главе отдела DS должен стоять руководитель, обязательно обладающий исследовательским опытом и навыками предпринимательства. К руководителю предъявляются и другие требования: умение управлять командой, вести переговоры, презентовать результаты, а также стрессоустойчивость, многозадачность и так далее.

В его подчинении — менеджер проектов и рядовые дата-сайентисты. Численность и профили сотрудников зависят от разнообразия и количества проектов отдела.

Руководитель отдела ищет проекты, где можно успешнее всего внедрить математическую модель с машинным обучением, а затем подбирает оптимальную метрику и проводит переговоры. Дальше отдел занимается реализацией проекта. Пока что ничего нового: таково краткое описание типичного отдела DS.

Теперь разберем более детально, почему именно эти качества руководителя отдела так необходимы для успешной работы.

Руководитель без предпринимательского склада ума, даже с большим исследовательским опытом в DS, не сможет найти действительно подходящие проекты.

Зачастую у менеджмента компании есть общее представление того, где и как можно применить машинное обучение, однако только человек с комбинацией навыков в предпринимательстве и DS сможет предложить проект на порядок интереснее первоначальной идеи. Также этот человек сможет на понятном бизнесу языке объяснить, почему надо решать проблему именно в такой постановке. Кто-то может подумать, что это рядовая задача, тут нет ничего сложного. К сожалению, это не так.

Пример интернет-магазина

Для наглядности рассмотрим пример интернет-магазина. Бизнес ставит типовую задачу DS: увеличить продажи, проанализировав профиль клиента с подбором наилучшего следующего предложения.

Модель разработана и внедрена, пошло увеличение количества продаж, и пока все хорошо. И вот здесь начинает играть роль предпринимательский майндсет у руководителя отдела DS. Решая подобную задачу, можно улучшать один из трех конкурентных показателей: количество проданных товаров, общая выручка, или прибыль. Одновременно всё оптимизировать можно только в случае, если цена и наценка у всех товаров одинаковая, но как мы знаем, так практически не бывает.

Возможно, бизнесу было необходимо не просто увеличить количество продаж, а увеличить прибыль в расчете на одного клиента. Для этого необходимо предлагать не просто «наиболее вероятные следующие покупки», а взвешивать (умножать) их на абсолютную маржу. Без углубления в подробности — такой подход принесет бизнесу больше прибыли. Увидеть реальную потребность бизнеса в текущий момент и предложить более подходящие решения смогут далеко не все, хотя конкретно в этой задаче многие уже знают про различные варианты оптимизации.

Стандартных инструментов DS может не хватать для решения реальных задач.

Зачастую выдающиеся результаты можно достигнуть только доработав свой инструментарий, а для этого требуется исследовательский опыт и глубокое понимание со стороны руководителя отдела DS.

Представим, что у нашего виртуального отдела DS чудо-руководитель, и все специалисты тоже молодцы. Кажется, нас ждет успех, но есть некоторые нюансы.

Первая суровая правда: проектам с машинным обучением часто не хватает данных для качественной реализации модели. Она может получиться настолько слабой, что внедрение в продакшн не будет иметь экономического смысла. Поэтому часто требуется сбор дополнительных данных, установка дополнительного оборудования или модернизация старого. В лучшем случае, можно отделаться ручной разметкой данных. К сожалению, сбор исторических данных необходимой продолжительности может быть весьма долог.

Вторая суровая правда: 80% рабочего времени дата-сайентиста занимает сбор, подготовка и проверка данных, и только 20% уходит на построение моделей, качество которых так необходимо бизнесу. Подготовительный этап не менее важен, чем само построение модели. Можем ли мы построить действительно качественную модель, если в данных есть ошибки или неточности? Конечно, нет.

Третья суровая правда: если задача решаема, то даже несложные модели с посредственным качеством могут принести бизнесу экономическую выгоду. При этом улучшение модели всего на 1% будет требовать все больше времени, и в какой-то момент станет сопоставимо со всеми ранее затраченными усилиями.

Четвертая суровая правда: любой проект по построению модели машинного обучения является по сути научно-исследовательской работой (НИР’ом). А это означает, что, получив результат, нельзя достоверно оценить, насколько он хорош, и можно ли еще его улучшить.

Здесь, как правило, действуют по такой схеме:

достигаем качество модели, которое принесет выгоду для бизнеса;
пытаемся улучшить модель;
если нет заметного улучшения — переходим к следующему проекту.

И это в целом правильно с точки зрения бизнеса – «добежать» до модели в новом проекте, которая будет приносить прибыль, так как это может быть легче, чем в старом проекте сделать улучшение. Как итог — у нас есть собранные данные и поставлена задача, а также уже получен результат от построения и внедрения модели. Еще должна быть оценка, сколько денег принесет следующее улучшение качества модели на 1%, но продолжать проводить исследования может быть нецелесообразным.

Пятая суровая правда: лучшие модели включают в себя «находки», которые делают единицы из тысяч аналитиков. Иногда они могут быть случайны, иногда помогает богатый или специфический опыт. Главное, что такое открытие сделать одной небольшой командой невероятно сложно.

Появляется закономерная идея — отдать разработку на аутсорс, чтобы выиграть в качестве (по сравнению с разработкой внутри компании). Идея не то, чтобы революционная, но используется реже, чем стоило бы. Для многих популярных и узкопрофильных задач есть целые компании, чей бизнес строить качественные модели.

И все же, задач гораздо больше, чем таких организаций. Есть и другой способ — проведение конкурсов. Площадок достаточно много, пожалуй, самая крупная и популярная — Kaggle.com. Там проводят соревнования по машинному обучению практически по всем направлениям. Если вы думаете, что у вас слишком специфическая задача или слишком приватные данные, загляните туда и поймите, что задача не такая уж специфическая, а чувствительные данные можно качественно обработать и сделать публичными.

Аутсорсить исследователей на условиях вознаграждения удобнее всего в двух местах: это профильные ВУЗы (факультеты и курсы), и общедоступные соревнования. Оба источника хороши, но имеют свою специфику.

Выпуская задачу «в свет», стоит сначала обратиться к учебному заведению. Можно еще раз обкатать саму постановку задачи и данные, получить независимое мнение, внести изменения. Есть хорошие шансы улучшить базовую модель, и, заплатив соответствующее вознаграждение, материально поддержать отечественных ученых/исследователей/преподавателей. В дополнении это будет реальная задача для студентов, которая так необходима для практики или дипломных работ.

После успешной обкатки и улучшения модели стоит организовать соревнование, ведь для этого все уже готово. Основной плюс соревнований в том, что очень много людей будет думать над задачей. Исследователи получат почву для изысканий, а компания — очередное улучшение модели при приемлемых расходах.

Для развития науки нужны реальные задачи, при решении которых могут происходить небольшие «находки», в последствии перерастающие в новые методы, подходы, отраслевые стандарты. Пусть это будет выглядеть слишком высокопарно, но, выпуская реальную задачу в свет, вы помогаете двигать мировую науку вперед!

Руководитель отдела DS должен иметь навыки предпринимателя и исследователя. Компаниям целесообразно передавать развитие моделей на аутсорс, после того как «сняли сливки» своими силами. Имеет смысл сначала обращаться в образовательные учреждения, а затем организовывать конкурс с хорошими призами.

Идеальная работа отдела Data Science

Базовое понимание отдела DS

Предпринимательство

Исследовательский опыт

Аутсорс

Краткое резюме