Машинное обучение: где ожидать наибольшего экономического эффекта в триллион долларов?

Перевод статьи в Forbes c комментарием консультанта по искусственному интеллекту компании «Цифра» Екатерины Ляпиной.

В романе о Гарри Поттере распределяющая шляпа выполняет роль алгоритма, который на основе информации об истории поведения студента, его предпочтениях и личных чертах характера принимает решение о направлении на тот или иной факультет Хогвартса. Если бы распределяющие шляпы существовали в реальности, они были бы приложениями на основе машинного обучения (ML), принимающими автономные решения исходя из сложных наборов данных. Если, как сейчас говорят, «программное обеспечение пожирает мир», то ML начинает «пожирать» программное обеспечение и придает дополнительный импульс здравоохранению, оборонному сектору и сельскому хозяйству – крупнейшим мировым отраслям, объемом в несколько триллионов долларов.

Если ожидается, что ML внесет существенный вклад в экономический рост, то возникает вопрос: где будет виден наибольший экономический эффект от имплементаций? В данной статье я рассмотрю подходы, применяемые компаниями трех типов: традиционными компаниями, применяющими ML; компаниями, создающими инструменты на основе ML без отраслевой специфики; компаниями, создающими вертикально интегрированные приложения на базе ML.

Машинное обучение за пределами мира технологических гигантов

Общеизвестны инновации в области ML, предлагаемые такими компаниями, как Facebook, Amazon, Apple, Netflix и Google (FAANG): от новостных лент до рекомендательных сервисов. Однако мало кто знает о растущем запросе на ML со стороны традиционных отраслей. Ожидается, что глобальные расходы на системы ИИ достигнут 98 млрд долларов США в 2023 г., что более чем в 2,5 раза больше 2019 г., при этом больше всего инвестируют в ИИ провайдеры финансовых услуг, розничные сети и автопром. Инвестиционная компания Blackrock, чей фонд активов под управлением составляет более 7 триллионов долларов США, в 2018 г. запустила несколько биржевых инвестиционных фондов на основе технологии машинного обучения. Машинное обучение также стремительно завоевывает популярность в сфере здравоохранения: как ожидается, в ближайшие три года бюджет на различные технические решения с применением ML, включая визуализацию, диагностику и поиск новых лекарственных препаратов, достигнет 10 млрд долларов США.

Среди бизнес-пользователей технологии можно выделить три крупных сегмента: программисты, аналитики данных и бизнес-аналитики, также известные как «гражданские аналитики данных» (citizen data scientists). Хотя бэкграунд бизнес-аналитиков менее технический, они составляют крупный, растущий сегмент пользователей, которые применяют машинное обучение для извлечен смысл из растущих объемов данных.

Инструменты машинного обучения внедряются во многих отраслях

В ответ на запрос со стороны этих клиентских сегментов образуется все больше компаний, продающих кирки в эпоху золотой лихорадки. «Вызов состоит не в том, чтобы сделать ML интуитивно понятным, а скорее в том, чтобы упростить такие трудоемкие задачи, как логирование и управление данными, развертывание и обеспечение воспроизводимости результатов, а также сделать процесс тренировки моделей более эффективным и поддающимся отладке», – говорит Стюарт Бауэрс, в прошлом вице-президент по инжинирингу в Tesla и Snap.

Вендоры из числа старожилов рынка, главным образом облачные провайдеры, взяли курс на создание “полнофункциональных платформ», в надежде продать как можно больше инфраструктурных сервисов. Sagemaker, платформа машинного обучения от AWS, изначально предназначалась для продвинутых разработчиков и аналитиков данных, однако недавно была выпущена версия Sagemaker Studio для менее технических пользователей. Для таких технологических гигантов, как AWS, продажа инструментов ML служит способом повышения трат клиентов на инфраструктуру, поэтому они могут предлагать подобные инструменты по низкой цене.

Компании-единороги тоже вносят свой вклад в развитие – как правило, в партнерстве с облачными провайдерами. Созданная на основе открытого ПО Apache Spark платформа Databricks, известная своими мощными технологическими возможностями в области инженерии данных, появилась в 2013 г., а сейчас стоимость одноименной компании оценивается в 6,2 млрд долларов США. Партнерство с Databricks позволяет Microsoft увеличивать спрос на обработку больших объемов данных и выполнение вычислений в облаке Azure, при этом активно масштабировать собственные усилия Microsoft по выводу продуктов на рынок.

Однако специалисты-практики на предприятиях все чаще требуют «лучшие в своем классе» технические решения, а не просто инструменты, подталкивающие их к приобретению дополнительной инфраструктуры. Следуя этой тенденции, стартапы следующего поколения будут придерживаться более узкоспециализированного подхода. В отличие от универсальных платформ, создаваемых традиционными игроками, стартапы могут сосредоточиться на конкретных проблемах и разрабатывать специализированные инструменты, направленные на их эффективное решение. На рынке инструментов ML на сегодняшний день существует три горячих проблемы.

Управление наборами данных

Хотя результаты применения инструментов ML могут выглядеть достаточно элегантно, аналитики тратят львиную долю времени на очистку и преобразование данных в формат, удобный для аналитических приложений. Поскольку данные все чаще хранятся в различных форматах на многочисленных устройствах и облачных ресурсах, их сложно приводить к «удобоваримому» виду, который был бы легко доступен для команд и применим в процессе совместной работы.

Для решения этой задачи сооснователь и главный исполнительный директор компании Tecton Майк дель Бальсо с помощью своего нового стартапа демократизирует передовые практики, которые он впервые внедрил в Uber. «Поврежденные данные – наиболее распространенная причина проблем, возникающих в производственных системах на базе ML. Аналитики тратят основное время на выбор и преобразование признаков, а затем на выстраивание конвейера обработки данных в продуктовой среде, задействующих работу с этими признаками», – отмечает он. Tecton упрощает работу на уровне данных, предоставляя платформу для управления такими признаками – интеллектуальными сигналами в реальном времени, тщательно отобранными из «сырых» данных и критически важными для встраивания моделей ML в бизнес-процессы.

На следующей стадии Liquidata выстраивает open source аналог GitHub для работы с базами данных. В беседе Тим Сэн, сооснователь и главный исполнительный директор Liquidata, в прошлом – вице-президент по инжинирингу в Snap, подчеркнул, что «необходимо делиться открытыми данными, точно так же, как мы делимся программным обеспечением с открытым кодом в масштабах сети Интернет. Для этой цели мы создали DoltHub – пространство в интернете для хранения, хостинга и бесплатного совместного использования открытых данных».

Отслеживание экспериментов и контроль версий

Еще одной общей проблемой является недостаточная воспроизводимость результатов. Отсутствие версионирования моделей машинного обучения затрудняет этот процесс.

Лукас Бивальд, сооснователь и главный исполнительный директор компании Weights and Biases, поделился в интервью таким наблюдением: «Сегодня основная боль – это отсутствие базового программного обеспечения и передовых практик для полноценного перехода к совершенно новому стилю программирования. Невозможно хорошо красить плохой кистью; нельзя качественно написать код в плохой среде разработки; мы не можем создавать и встраивать в продуктивную среду достойные модели на основе технологии Deep Learning с помощью тех инструментов, которые имеются в нашем распоряжении сегодня». Его компания запустила техническое решение для отслеживания экспериментов в 2018 г., что позволило таким заказчикам, как OpenAI, масштабировать аналитические выводы, полученные исследователем, на всю команду.

Масштабируемость моделей

Построение инфраструктуры для масштабируемого развертывания моделей и мониторинга результатов в боевых условиях – еще один критически важный компонент на этом развивающемся рынке.

Anyscale – стартап, базирующийся на платформе с открытым исходным кодом Ray, – абстрагировался от инфраструктуры, лежащей в основе распределенных приложений и масштабируемого ML. В нашей беседе сооснователь и главный исполнительный директор Anyscale Роберт Нисихара отметил: «Подобно тому, как операционная система Microsoft создала экосистему инструментов разработки приложений, мы создаем инфраструктуру для обеспечения работы мощной экосистемы приложений и библиотек, от тренировки моделей до развертывания, что облегчает разработчикам задачу масштабирования приложений машинного обучение».

Масштабируемость стремительно развивается и в области обработки естественного языка (Natural Language Processing или NLP). Компания Hugging Face создала библиотеку с открытым исходным кодом для разработки, тренировки и распространения NLP-моделей. «За последние три года произошла смена парадигмы, в ходе которой новый способ дотренировки NLP моделей способствовал радикальному изменению доступности и точности интегрирования NLP в бизнес-приложения, – говорит Клеман Деланге, сооснователь и главный исполнительный директор компании. – Мы сокращаем компаниям цикл внедрения моделей обработки естественного языка: вывод в продуктивную среду результатов последних исследований становится возможен в течение одной недели, а не нескольких месяцев».

Еще один многообещающий стартап Streamlit позволяет разработчикам создавать приложения на основе ML с помощью всего лишь нескольких строчек в Python и мгновенно их развертывать. OctoML применяет к моделям машинного обучения дополнительный интеллектуальный слой, что облегчает оптимизацию и развертывание. Команда Fiddler Labs разработала платформу Explainable AI для непрерывной интерпретации и мониторинга результатов в продуктивной среде.

Чтобы выстроить устойчивые компании с долгосрочным потенциалом в условиях жесткой конкуренции со стороны старожилов рынка, стартапы постоянно задаются следующими вопросами: Какая категория заказчиков испытывает в нас абсолютную необходимость? Как дотянуться до таких заказчиков?

Многие стартапы начинают с намерения отвоевать 1% крупного рынка, но зачастую такие рынки уже заняты или даже перенасыщены. Компаниям, сосредоточенным на завоевании ключевого клиентского сегмента, часто сопутствует ранний успех, который становится залогом долгосрочного расширения. Чтобы получить доступ к таким клиентам, большинство традиционных игроков наподобие Databricks и Datarobot, применяют подход «сверху вниз», продвигая коммерческие предложения корпоративного уровня. Аналогично той ситуации, которую мы наблюдали на рынке инструментов для разработки, я ожидаю, что стартапы, специализирующиеся на ML, в конечном счете перейдут от исключительно корпоративных продаж к стратегии «снизу вверх» и получат преимущество перед сегодняшними лидерами, практикующими корпоративный подход.

Вертикально интегрированные приложения на основе машинного обучения нарушают статус-кво

Некоторые наиболее интересные компании, специализирующиеся на ML, реализуют инновационные бизнес-модели, коренным образом меняющие целые отрасли. Автопром служит наиболее очевидным примером: только в 2019 г. прирост финансирования отрасли составил 10 млрд долларов США. К следующим отраслям, на которые ML окажет революционное воздействие, относятся сфера здравоохранения, производство промышленной продукции, оборонный сектор и сельское хозяйство.

ML наиболее эффективно в паре с еще чему-то, – говорит Ричард Сочер, главный аналитик данных компании Salesforce. – Передовые компании в области ML имеют четкую ориентацию на определенную вертикаль. Они даже не называют себя ML-компаниями». Он выделяет здравоохранение в качестве отрасли, обладающей уникальными перспективами: Athelas применяет машинное обучение для мониторинга иммунитета, помогая пациентам оптимизировать прием лекарственных препаратов с помощью сбора данных об уровне лейкоцитов в их крови. Curai использует технологию машинного обучения для повышения эффективности и качества рекомендаций врачей, позволяя им больше времени уделять непосредственно лечению пациентов. Zebra и AIdoc ускоряют постановку диагнозов радиологами.

В промышленности и логистике стартап Covariant совмещает технологию Reinforcement Learning и нейросети, что дает возможность роботам манипулировать объектами на крупных складсках. Agility и Dexterity занимаются похожей задачей – конструированием роботов, способных адаптироваться к непредсказуемым ситуациям, задействуя все более сложные методики. Interos применяет ML для оценки международных цепочек поставок, помогая предприятиям принимать критически важные решения, связанные с управлением поставщиками, непрерывностью бизнеса и рисками.

В сфере безопасности и обороны компания Verkada предложила новую концепцию физической безопасности предприятия за счет интеллектуального анализа и обучения моделей на основе съемки в реальном времени. В Anduril создали основу системы, базирующейся на машинном обучении, интегрирующую данные от сенсорных башен для повышения интеллектуальной составляющей в интересах национальной безопасности. Программное обеспечение Shield AI позволяет беспилотным комплексам интерпретировать сигналы и выполнять интеллектуальные задачи в боевых условиях.

Сельское хозяйство – еще одна отрасль, познавшая преимущества применения машинного обучения. Джон Дир приобрел стартап Blue River Technology – разработку интеллектуального оборудования для опыления сельскохозяйственных культур. «Мы изменяем сектор сельского хозяйства, привнося в него технологию компьютерного зрения для наблюдения за отдельными растениями и принятия мер применительно к каждому из них», – комментирует Ли Редден, ведущий научный сотрудник из группы интеллектуальных решений в объединенной компании. Другим заметным предприятием агротехнологического сектора является компания Indigo, применяющая ML для “точного ведения фермерского хозяйства”: анализ данных позволяет добиться более рентабельного и экологически рационального производства пищевых продуктов.

Что нас ждет впереди?

Машинное обучение незаметно проникло во все аспекты нашей повседневной жизни: в наши автомобили, в работу медицинских учреждений и в производство потребляемых нами продуктов питания. Крупные участники рынка до сих пор являлись лидерами в сфере ультрасовременных технологий, однако сейчас в игру вступает многообещающее новое поколение приложений и инструментов на основе машинного обучения, которые переведут ажиотаж вокруг машинного обучения из фантастики а-ля «Гарри Поттер» в ощутимые, общественно полезные вещи.

Сейчас есть все основания быть оптимистичным касательно пользы, которую способны принести применения машинного обучения. Традиционные компании проведут обучение миллионов гражданских аналитиков данных (citizen data scientists), которые затем изменят облик старых отраслей и повысят их продуктивность. Инструменты ML позволят уменьшить барьеры на пути создания интеллектуальных приложений, стимулируя внедрение миллионов новых идей в производство каждый день. Вертикальные бизнес-модели на основе ML демократизируют доступ к здоровому питанию, надежной физической безопасности и доступному здравоохранению.

Для понимания текущей ситуации, полезно знать предысторию. Когда пионеры начали масштабировать проекты с ИИ, они обнаружили, что запускать пилоты и достигать впечатляющих результатов обманчиво легко, но чертовски трудно встроить модели машинного обучения в бизнес-процесс. Сейчас, по моему внутреннему ощущению, примерно 90% всех экспериментов не доходит до боя. Этот парадокс и породил новые подходы, позволяющие трансформировать операционные модели компаний.

Управление данными окончательно оформилось в отдельную дисциплину data governance, и ИИ останется одной из основных тем, определяющих инфраструктурные решения в ближайшем будущем. Для ускорения запуска пилотных проектов в производство требуется определенная инфраструктура, получившая название MLOps по аналогии с DevOps применительно к моделям и технологиям машинного обучения.

Текущие MLOps системы в значительной степени ориентированы на работу с моделями машинного обучения, а не с самими данными. В новый ландшафт также хорошо встраиваются такие инструменты, как DVC и Pachyderm, поддерживающие git-образный подход к управлению данными. Тренд на версионирование также подтверждается новым витком развития систем хранения больших данных - например, Delta Lakes.

Что же до вертикально-интегрированных приложений, что они могут поставить под угрозу основные источники конкурентных преимуществ компаний. Поставщикам необходимо обучать свои инструменты ИИ, используя конфиденциальные данные клиентов. В этом ключе сопутствующим трендом видится развитие направления AutoML: вместе с отраслевой экспертизой - это хороший путь для стартапов. AutoML решит 80% самых неинтересных и малоценных задач, тем самым уменьшив порог входа для создания моделей машинного обучения, и даже позволит бизнес-аналитикам (или citizen data scientist) использовать передовые методы моделирования без помощи аналитиков данных. Продвинутые задачи будут ждать решений от высококвалифицированных команд.

В статье удивительно точно указаны отрасли с наибольшим потенциалом. Применительно к нашей стране, приоритет также за сельским хозяйством и медициной, что хорошо отражено в недавно вышедшем федеральном проекте «Искусственный интеллект».

Екатерина Ляпина, Консультант по искусственному интеллекту в компании "Цифра"
44
7 комментариев

Интересно, по каким фичам они посчитали объёмы финансирования? Что именно они заложили в полученную цифру?

Ответить

Объем финансирования посчитали как количество денег, которые подняли компании, связанные с разработкой беспилотных автомобилей, за 2019 год. Опираются в оценке на данные от PitchBook.

Ответить

Про MLOps я не слышал, а вот про DataOps, который ориентирован на работу с самими данным как раз слышал.

Ответить

Область молодая, думаю, мы увидим еще много названий :)

Ответить

"по моему внутреннему ощущению" - весомое обоснование)

Ответить