Трудности перевода: как договориться с Data Scientist?
Емкое руководство по общению с отделом Data Science для маркетологов, проджектов и других членов команды. Как ставить задачи на языке дата-сайентистов, чтобы быстрее получать от них качественный результат.
Привет! Меня зовут Рома Васильев, я руковожу направлением Data Science компании Data Stories. Все мы знаем, что в процессе работы над общими проектами разным специалистам приходится активно коммуницировать друг с другом, и между дата-сайентистами и, например, проджектами или маркетологами могут возникать недопонимания. Руководствуясь своим опытом и взглядом изнутри Data Science, я бы хотел дать несколько советов, как общаться с аналитиками.
Общайтесь легко
Самое важное, что нужно помнить: дата-сайентисты — это в первую очередь люди. А значит, общаться с ними нужно по-человечески. Старайтесь ясно и четко формулировать задачи — как для себя. Ну, и относитесь к коллегам с уважением и пониманием, это основа всех эффективных коммуникаций.
Используйте метрики
Для дата-сайентиста важно, чтобы вы говорили на языке метрик. Не ставьте абстрактные задачи — помните, что для успешного достижения цели должны быть конкретными и измеримыми.
Ставьте цели, а не учите их достигать
Даже если вы как маркетолог приходите к аналитику за нейросеткой, сама нейросетка вам не нужна. Вам нужно решение конкретной бизнес-задачи, и именно это нужно транслировать. Расскажите, чего вы хотите добиться инструментами Data Science. Объясните, какой результат с точки зрения бизнеса будет удовлетворительным. Не говорите заранее, какую модель дата-сайентист должен применить, пусть специалист сам найдет решение вашей проблемы.
Подключайте аналитика на старте
Возможно, какие-то задачи ни вам, ни дата-сайентисту выполнять вообще не нужно, и команда просто делает лишнюю бесполезную работу. Но понять это можно, только если сразу подключать аналитика, еще на этапе постановки задач.
К примеру, бизнесу хочется узнать, какую пользу принесет в будущем клиент, который сделал самый первый заказ. Первая мысль маркетологов, которые обсуждают задачу без аналитика, — предсказать LTV, то есть рассчитать, сколько денег принесет этот человек за всю свою историю взаимодействия с компанией. Это понятный и популярный показатель, бизнесу он нравится. Но чаще всего по первому касанию невозможно сделать точное предсказание LTV — глубины данных не хватает.
Аналитик об этом прекрасно знает, и, если он участвует в обсуждении такой задачи, он предложит лучшее из возможного — например, retention-модель. С ее помощью можно предсказать, сделает ли клиент еще хоть один заказ, вернется ли он. Этот прогноз будет более точным и простым в реализации. Для бизнеса это по-прежнему ценная информация, и аналитику несложно ее добыть, потому что это задача классификации, а не регрессии, то есть и метрики более понятны, и меньше выбросов, так как у нас нет суммы в рублях, есть только бинарные значения 0 и 1.
В общем, если бы дата-сайентист участвовал в постановке задачи, он бы понял, что не обязательно предсказывать, сколько денег клиент принесет за все время пользования сервисом. Вместо этого можно оценить, какие каналы принесут больше денег. Это решит ту же бизнес-задачу, но прогноз будет готов в разы быстрее, и он будет точнее.
Не путайте ресерч и релиз
Проще всего объяснить на примере. Во многих компаниях встречаются такие ситуации: дата-сайентисту поручили решить какую-то бизнес-задачу с помощью ML-модели. Он ее настроил, сделал, всё отлично, бизнесу нравится. И бизнес сразу же говорит: «Всё, в продакшен, прямо завтра релизим». Но релиз и выполненное аналитиком исследование, ресерч — это две абсолютно разные задачи.
Как выглядит этап ресерча? Дата-сайентист скачивает из разных систем кучу CSV-файлов, в Jupiter Notebook создает из них датасет, обучает модель, и потом уже ее анализирует, смотрит метрики, запускает А/В-тест и так далее.
На этапе продакшена всё то, что специалист делал вручную, должно быть уже автоматизировано. Уже не может быть никаких CSV, только облачные хранилища. Если это ML-модель, то ее нельзя один раз обучить и навсегда оставить без внимания — она не будет эффективно работать, нужно подключать фреймворки для поддержания жизненного цикла ML-моделей, и потом еще куда-то выгружать данные.
Каждый шаг внутри этих двух процессов (ресерч и продакшен) — отдельный скрипт, который нужно писать, тестировать, корректировать. Более того, в идеале дата-сайентист занимается только исследованием, а продакшен на себя берут дата-инженер с ML-инженером.
Будьте готовы к тому, что дата-сайентист не всегда сможет выдать вам финальное решение, которое тут же можно зарелизить. Могут понадобиться дополнительные тесты, автоматизация и даже привлечение других специалистов.
P.S. Хорошие новости
Мой опыт подсказывает, что дата-ориентированных коллег становится с каждым днем всё больше. Уже не удивляют проджекты и маркетологи, которые могут сами писать простенькие SQL-запросы, и это очень радует. Мы вместе идем в светлое цифровое будущее — надеюсь, моя мини-инструкция поможет его приблизить.