Идеальный Data Scientist. Взгляд ML Product Manager-а.

Роль ML Product Manager предполагает тесное взаимодействие с командой Data Scientist-ов. Мне удалось поработать с 50+ DS-ми в разных компаниях. Ниже опишу важные качества, которыми обладали самые сильные ребята.

1. Умение глубоко погружаться в данные

При старте новой задачи важно погрузиться в данные. Безусловно, при постановке задачи DS получает набор разрезов для анализа и целевые графики для визуализации. Но порой только в процессе работы с данными понимаешь, как расширить исходный скоуп EDA и на что обратить внимание.

Хорошему DS-у не нужно пошаговое руководство. Он досконально изучает данные, задает уточняющие вопросы по их происхождению и бизнес-процессу и сам подсвечивает проблемные места.

2. Оценка любой задачи через призму инференса и работу модели в проде

Реальные бизнес-сценарии отличаются от сухого ресерча или Kaggle-задач. Есть требования по нагрузке и скорости, ограничения по железу. Иногда доп ограничения пайплайнов обработки данных — невозможность собирать данные чаще фиксированной частоты или использовать потоковую обработку.

Сильный DS выбирает архитектуру, строит фичи и проектирует обучение с учетом того, как модель будет работать в проде. Ему важна стабильная модель, а не просто максимум метрик на тесте.

3. Базовые навыки из смежных областей (DE / MLOps)

В большинстве компаний есть отдельные команды для разработки пайплайнов (Data Engineer) и деплоя моделей (MLOps). Но DS-у важно уметь самому обернуть модель в сервис, добавить пре/постпроцессинг и развернуть на dev-окружении для нагрузочных тестов или быстрого PoC.

Это существенно ускоряет time2market и сокращает количество итераций со смежными командами.

4. Высокая автономность и проактивность

Работа DS это длинный пайплайн: доступы к БД, выгрузка данных, EDA, выбор архитектуры, эксперименты, оценка качества и т д. На каждом этапе возникают вопросы, которые сложно предусмотреть заранее — нехватка или низкое качество данных, неожиданное поведение новой архитектуры, спорные результаты экспериментов.

Ценно, когда DS самостоятельно закрывает большинство таких вопросов и проактивно эскалирует остальные с вариантами решений и их плюсами/минусами, чтобы совместно с тимлидом или PM быстро принять решение.

Как итог

Сильная база в ML + эти четыре качества = DS, который запускает продукты быстро в условиях высокой неопределенности. Такой человек не ждет идеальной постановки, не теряется в блокерах и не строит модели в вакууме.

Таких DS сложно найти, но именно они определяют успешность запуска продуктов на основе ML.

Больше деталей о продуктовом менеджменте решений на основе AI/ML в моем телеграм-канале.