Идеальный Data Scientist. Взгляд ML Product Manager-а.
Роль ML Product Manager предполагает тесное взаимодействие с командой Data Scientist-ов. Мне удалось поработать с 50+ DS-ми в разных компаниях. Ниже опишу важные качества, которыми обладали самые сильные ребята.
1. Умение глубоко погружаться в данные
При старте новой задачи важно погрузиться в данные. Безусловно, при постановке задачи DS получает набор разрезов для анализа и целевые графики для визуализации. Но порой только в процессе работы с данными понимаешь, как расширить исходный скоуп EDA и на что обратить внимание.
Хорошему DS-у не нужно пошаговое руководство. Он досконально изучает данные, задает уточняющие вопросы по их происхождению и бизнес-процессу и сам подсвечивает проблемные места.
2. Оценка любой задачи через призму инференса и работу модели в проде
Реальные бизнес-сценарии отличаются от сухого ресерча или Kaggle-задач. Есть требования по нагрузке и скорости, ограничения по железу. Иногда доп ограничения пайплайнов обработки данных — невозможность собирать данные чаще фиксированной частоты или использовать потоковую обработку.
Сильный DS выбирает архитектуру, строит фичи и проектирует обучение с учетом того, как модель будет работать в проде. Ему важна стабильная модель, а не просто максимум метрик на тесте.
3. Базовые навыки из смежных областей (DE / MLOps)
В большинстве компаний есть отдельные команды для разработки пайплайнов (Data Engineer) и деплоя моделей (MLOps). Но DS-у важно уметь самому обернуть модель в сервис, добавить пре/постпроцессинг и развернуть на dev-окружении для нагрузочных тестов или быстрого PoC.
Это существенно ускоряет time2market и сокращает количество итераций со смежными командами.
4. Высокая автономность и проактивность
Работа DS это длинный пайплайн: доступы к БД, выгрузка данных, EDA, выбор архитектуры, эксперименты, оценка качества и т д. На каждом этапе возникают вопросы, которые сложно предусмотреть заранее — нехватка или низкое качество данных, неожиданное поведение новой архитектуры, спорные результаты экспериментов.
Ценно, когда DS самостоятельно закрывает большинство таких вопросов и проактивно эскалирует остальные с вариантами решений и их плюсами/минусами, чтобы совместно с тимлидом или PM быстро принять решение.
Как итог
Сильная база в ML + эти четыре качества = DS, который запускает продукты быстро в условиях высокой неопределенности. Такой человек не ждет идеальной постановки, не теряется в блокерах и не строит модели в вакууме.
Таких DS сложно найти, но именно они определяют успешность запуска продуктов на основе ML.
Больше деталей о продуктовом менеджменте решений на основе AI/ML в моем телеграм-канале.