{"id":10861,"title":"\u0417\u0430\u043f\u0443\u0441\u0442\u0438\u0442\u0435 \u043f\u0438\u043b\u043e\u0442 \u0432 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0435 PwC Venture Hub","url":"\/redirect?component=advertising&id=10861&url=https:\/\/vc.ru\/promo\/349044-korotko-zapustit-pilot-i-poluchit-novyh-klientov-s-pwc&placeBit=1&hash=4330fcc6373e035951e6ff64a3ae572ba5f30463fe8776204270bbc0bd091c81","isPaidAndBannersEnabled":false}
GlowByte

5 столпов MLOps

Команда Advanced Analytics GlowByte запускает цикл статей посвященных MLOps. MLOps — это набор практик и технологий, которые объединяют Machine Learning, DevOps, Data Engineering и Model Governance в единую методологию создания, внедрения и эксплуатации моделей машинного обучения. MLOps помогает бизнесу развивать Data Science и внедрять качественные ML модели на 80% быстрее.

Из статей узнаете о следующем:

  • О среде разработки моделей машинного обучения;
  • Об управлении данными для ML и концепции FeatureStore;
  • Связи MLOps с DevOps и о внедрении ML Моделей;
  • Мониторинге ML моделей;
  • Калибровке, переобучении, дообучении и пр;
  • Основах управления Жизненным Циклом Моделей.

В этой статье команда рассказывает как из общих методов и технологий машинного обучения получить приложения для решения конкретных бизнес-задач.

Бизнес собирает петабайты данных для использования в Data Science проектах, но это не гарантирует прибыль. Единого понимания, как работать с ML-приложениями, еще нет, хотя у многих компаний есть обнадеживающие пилоты и удачные эксперименты, превратить их в стабильную ценность для бизнеса не всегда получается и многие компании не могут превратить обнадеживающие пилоты и удачные эксперименты в стабильную ценность для бизнеса. Причина — не изъяны технологий ML, и даже не слабая квалификация специалистов, а отсутствие проторенной дороги от среды экспериментов в промышленную эксплуатацию (как вариант — “от теста в продакшн”). Концепция MLOps такую дорогу прокладывает операционализацией работы с моделями, систематизацией внедрения и автоматизацией всего что только можно в жизненном цикле моделей.

На какие вопросы отвечает MLOps?

Как организовать процесс разработки? Во-первых, каждому разработчику нужна полноценная среда разработки, которая не ограничивает в технологиях и ресурсах. Время разработки на локальных машинах уходит. Компании смотрят в сторону выделенных серверов или кластеров с изолированными средами разработки (например: JupyterHub на k8s) или же на облачные технологии (например: Yandex DataSphere, Amazon SageMaker). Во-вторых, все репозитории моделей важно вести в одинаковой структуре, а модели вызывать единообразно. Это упростит взаимодействие в команде и позволит организовать единый автоматизированный CI/CD-процесс внедрения моделей.

Как выстроить сквозной жизненный цикл моделей (ЖЦМ)? Для начала вспомним, что в ЖЦМ участвует не только непосредственный разработчик модели (Data Scientist), но еще и инженер данных (Data Engineer), IT специалист (IT Engineer), специалист по операционализации (MLOps engineer) и сам бизнес-заказчик. ЖЦМ описывает взаимодействие между ролями участников процесса и внешними системами. Его можно представить в виде бизнес-процесса в BPMN-нотации. Шаг процесса — это конкретная задача конкретного специалиста. Например, для окончания разработки витрины данных для модели, необходимо наличие кода сборки витрины, ссылки на саму витрину и документации о разработке.

Как выстроить коммуникацию и взаимодействие между командами? Выстроив бизнес процессы, мы уже упростили взаимодействие между командами, но нужна система хранения артефактов и метаданных модели, чтобы разработчикам не приходилось искать информацию в почте или мессенджерах. Для этого подойдет единый портал, в котором будут храниться все данные конкретной модели, и этот портал должен наполняться в соответствии с течением бизнес процесса ЖЦМ. Для решения таких задач существует ряд решений (например: BPMN движки, Jira, таск-менеджеры и тд), однако ни одно решение не может закрыть все проблемы на 100%.

Как управлять моделями? Бизнес-заказчик хочет держать руку на пульсе ML-проектов, чтобы понимать статус разработки, управлять человеческими ресурсами и вовремя отменять нерентабельные проекты. Этого позволяет достичь реализация БП на каком-либо движке и объединение БП с системой хранения метаданных. Так мы получим одну точку входа для разработчиков и менеджмента.

Как сократить время доставки моделей в продакшн? Вопрос сложный и затрагивает многие этапы жизненного цикла моделей. MLOps-подход сокращает time-to-market моделей. Он позволяет структурировать процесс разработки и упаковки моделей. Используя DevOps методологию, мы выстраиваем автоматизированный CI/CD пайплайн сборки ML приложения из кода Data Scientist`а и доставки его до всех контуров. В свою очередь, выстроенный бизнес-процесс и единый портал сокращают время на коммуникацию и менеджмент проектов.

Что делать после внедрения модели? Понятно, что ЖЦМ не заканчивается на внедрении. На промышленной среде придется присматривать за качеством поступающих данных, за степенью деградации самой модели и за инфраструктурой, на которой работает модель. При падении качества, модель необходимо откалибровать или обучить заново на новых данных. А при наличии проблем с серверной частью, мы хотим своевременно обнаружить их и проинформировать ответственных лиц. Для этого стоит выстроить дашборд мониторинга (а лучше — полноценную систему), который бы включал в себя все метрики, влияющие на работоспособность модели и на бизнес в целом.

Мы выделяем 5 основных столпов, на которых стоит MLOps

  • Контур анализа данных и моделирования — системы и технологии, связанные с разработкой моделей машинного обучения и датасетов для обучения/применения/эксплуатации. Управление вычислительными ресурсами, разграничение доступа и поддержка большого количества современных фреймворков для разработки моделей;
  • Среда применения моделей — сама среда, в которой запускается код моделей, пайплайны обработки данных связанные с ML и процессы принятия решений на основе моделей машинного обучения;
  • Управление переменными (Feature Store) — технология, упрощающая взаимодействие между Data Scientist и Data Engineer. Первый больше не собирает данные самостоятельно, а “заказывает” датасеты; второй же приобретает инструмент автоматической сборки этих заказов, вместо постоянных выгрузок ad-hoc;
  • Система управления ЖЦМ и модельным риском — единая платформа для работы всех ролей, связанных с разработкой моделей;
  • Технологии эксплуатации моделей — система мониторинга всего и вся, пульсометр, что проверяет “здоровье” модели и сигнализирует об угрозах ее “жизни”. А также система повторного обучения, дообучения и калибровки, которая может реанимировать умирающую модель.

Однако помимо этих столпов есть и другие системы, связанные с MLOps:

  • Платформа AB тестирования;
  • AutoML;
  • Система автоматизации процесса разработки;
  • Система отслеживания модельных экспериментов;
  • Платформа валидации и аудита моделей;

Об этом мы подробно расскажем в следующих статьях этого цикла, где остановимся на готовых решениях и технологиях для реализации MLOps-подхода в широком смысле.

Пока вы ждете продолжения, приходите общаться в наше NoML Community и заглядывайте на эфиры в CH https://www.joinclubhouse.com/club/noml.

0
0 комментариев
Популярные
По порядку
Читать все 0 комментариев
Люди на вырост: как it-компании получить новых сотрудников с нужными компетенциями

Чем занимаются стажеры «Ситимобила» — рассказывает (теперь уже) штатная сотрудница компании.

Avito доставка: Покупатель не принял товар, но при возврате он был выдан неизвестному лицу

Доброго времени дня. Вот и у меня произошла неприятная ситуация с Авито и Boxberry: вернувшийся мне товар в виде видеокарты GTX1070 стоимостью 35.000 руб. был вручен постороннему человеку без проверки документов.

«Альфа-банк»: звонки от фейковой «службы безопасности банка»

После оформления заявки на кредит на официальном сайте АльфаБанка, начали поступить звонки от мошенников

«Яндекс» купит технологическую платформу рекламного сервиса eLama Статьи редакции

Платформа сохранит название и продолжит развиваться под брендом eLama.

Логарифмическое распределение цен на платформе Veles

Мы добавили логарифмическое распределение цен.

«Азбука вкуса» завоевала серебро и бронзу на международном конкурсе дизайна World Brand Design Society Awards

Проекты инхаус дизайн-студии «Азбуки вкуса» — упаковка Мосальского стейка и редизайн упаковки СТМ «Азбука вкуса» — получили серебряную и бронзовую награды в двух номинациях: Дизайн упаковки и Редизайн упаковки.

На кого поставить при развороте рынка вверх
Почему спрос создать нельзя и что с этим делать

«Рекламируем паркетную доску темного цвета… она не пользуется спросом… люди спрашивают светлую… По опыту темную доску покупают люди… Вопрос: какую стратегию применить для привлечения покупателей?»

Revolut запустил в США сервис для торговли акциями без комиссии Статьи редакции

До этого пользоваться приложением могли только жители Евросоюза и Великобритании.

null