Как специалистам по Data Science и AI не остаться без работы

Раньше к ML относились практически как к rocket science: разработчиков алгоритмов считали практически шаманами, решения создавались месяцами. С развитием технологий меняется и подход к продуктам из сферы Machine Learning: компании всё чаще используют базовые работающие инструменты (в том числе, open source) для быстрой автоматизации процессов, предпочитая получить результат «здесь и сейчас», чем доводить результат до идеала.

Меня зовут Павел Матюсов, я работаю в «КОРУС Консалтинг», около 5 лет я занимаюсь задачами в области аналитики данных и машинного обучения и участвую в соревнованиях на платформе Kaggle. Я уверен: на рынке по-прежнему есть место уникальным «штучным» разработкам и сложным алгоритмам. Но рынок меняется, и этого нельзя отрицать.

Как специалистам по Data Science и AI не остаться без работы

Переосмыслить сроки и стоимость проектов: настало время простых и быстрых решений

Работы, связанные с машинным обучением, всегда требовали времени и трудозатрат, что объясняло высокую стоимость проектов. Но при увеличении вычислительных мощностей, резко возросшем уровне качества готовых инструментов и библиотек на open source и явном преимуществе одного из видов алгоритмов обучения невозможно удерживать цену на прежнем уровне.

Как специалистам по Data Science и AI не остаться без работы

Количество экспериментов, необходимых для создания первого MVP (minimum viable product), существенно снижается, как и требования к данным — что влечет за собой уменьшение сроков реализации проектов.

Раньше большой блок задач был связан с предварительным этапом — приведением в порядок исходных данных, «причесыванием» базы, настройкой хранения, систем проверок и верификаций.

Сейчас все больше крупных и средних компаний самостоятельно решают проблему качества данных и их хранения.

Увеличивается количество внедрений единых корпоративных хранилищ и реализаций витрин для BI-инструментов, что уменьшает сроки подготовки вводных для обучения систем. Уже сейчас процессы по созданию качественной базы занимают одно из приоритетных мест, тем самым готовя будущую платформу для всех проектов машинного обучения, чувствительных к качеству исходных данных.

По результатам соревнований по машинному обучению на платформе Kaggle первые baseline-результаты, приближенные по качеству к финальным, появляются в течение 5-10 суток после публикации подготовленных данных — при этом в работы включены настройки гиперпараметров алгоритма и создание валидационной стратегии. Также включен базовый предпроцессинг: шкалирование показателей, кодировка переменных, создание дополнительных статистических и логических показателей, поиск аномалий и так далее. Затратив больше времени на усреднение итогов работы нескольких алгоритмов и поиска новых статистически значимых переменных, участники добиваются больших результатов, чем исходный baseline. Но в большинстве случаев его невозможно перенести на продуктивную среду ввиду излишней сложности.

Большинство проектов будут гибко балансировать между быстрым baseline и длительными экспериментами, нацеленными на улучшения результата.

Тем самым долгосрочные сложные проекты превратятся в проекты с итерационным подходом: Baseline → Оплачиваемая итерация 1 (наиболее вероятные эксперименты для улучшения) → Улучшение результата на N → Оплачиваемая итерация 2 → (наиболее вероятные эксперименты для улучшения) → Улучшение результата на N1 → Согласие на текущую реализацию → Завершение проекта.

Изменить подход к продажам: от презентаций к интерактивному демо

Помимо баланса сроков-стоимости-качества одной из главных сложностей остается работа с возражениями людей. Применение машинного обучения в области маркетинга и продаж достаточно перспективно, но внедрение решений тормозится из-за предубеждений. В последние пять лет мы видим резкий спад уровня доверия к внедряемым решениям: слишком сильно предложенное «на бумаге» отличается от того, как все работает в реальности. При этом большинство предлагаемых решений схожи: они обещают увеличение прибыли, лояльности и уменьшения ошибок планирования — и это сходство что еще больше подрывает доверие к уникальности предлагаемых решений и их реалистичности. Следствие — кризис доверия новым системам.

Трендовые решения из области машинного обучения, уже ставшие классическими: подбор параметров промокампаний, оценка потенциала новых товаров, динамическое ценообразование, клиентское профилирование, противодействие оттоку, прогнозирование регулярного спроса и спроса с учетом промо-активностей – останутся актуальными даже на перенасыщенном рынке. Но чтобы преодолеть барьер недоверия со стороны принимающих решения лиц, компании неизбежно изменят подход к продажам ИИ-решений: перейдут от сухих презентаций к тому, что мы называем Like in Real World.

Иными словами, заменят классический PowerPoint на работающий стенд компании с настроенным аналитическим инструментом, подключением к SMS-центру, виртуальному магазину и email-рассылке.

Демонстрация и продажа решения — теперь не встреча в помещении с проектором, а подробная экскурсия в дивный мир будущего, где всё уже работает: часть переговорной комнаты превращена в отделение банка или в кассу гипермаркета. При демонстрации в сети супермаркетов заказчик видит, как в зависимости от суммы покупок и указанных любимых товаров клиентам приходят различные скидки и предложения, при демонстрации в банке — как система высылает письмо с предложением реструктуризации долга, сформированном на основании его расходов и решения о погашении кредита. Подход позволяет сделать процесс интерактивным: функциональность будет доступна для управления и с другой стороны, что превратит презентации в целые «игровые дни» с использованием разных ролевых моделей.

Приготовиться к погружению в сложные проекты: открытый симбиоз с производством

Но что же со сложными уникальными решениями? Традиционные сферы применения машинного обучения, такие как банковский сектор, ритейл и масс-медиа, в скором времени станут перенасыщены — в них останется место только для узкоспециализированных проектов «глубокого обучения» (электронные кассиры или цифровой двойник банковского служащего).

Самое время искать новые сферы применения знаний.

И текущие тренды на цифровизацию производства подталкивают компании к наращиванию экспертизы в промышленном секторе. Огромная сфера производственных практик: лесозаготовки, металлургия и нефтедобыча — лишь выходят на путь цифровизации. Они быстро осваивают цифровых двойников производства и помощников в принятии решений.

Но с «багажом» проектов из более традиционных для ML сфер войти в промышленный сектор не так просто: производственные компании требует экспертизы и опыта специализированных проектов, а также уникальных кейсов по созданию решений — например, по внедрению цифрового помощника регулировки угла ковша для слива сплава в сфере черной металлургии или определению качества распила древесины по весу и площади опилок.

ИТ-компаниям предстоит выделять время для дополнительного обучения своих экспертов в производственной сфере и для проведения совместных со специалистами заказчика сессий по поиску решений. Компании, которые смогут окружить себя экспертным сообществом и реализовать множественные пилоты в производственной сфере, смогут уверенно чувствовать себя в ближайшие десятилетия.

Что же нас ждет?

Скорее всего, нас ждет переход от сложных и дорогостоящих штучных решений к быстрому и более дешевому конвейерному производству пилотных моделей ML, которые позволят массово оценивать возможности и перспективы внедрения. Но это не значит, что высокоуровневые специалисты по машинному обучению больше не нужны. Но чтобы преуспеть на рынке, нужно быть готовыми к переменам.

Рынок развивается и открывает новые возможности. И наша задача — быстро адаптироваться к этим изменениям, чтобы возглавить забег, а не остаться в хвосте.

44
Начать дискуссию