Fabrique.ai — новый взгляд на предиктивную аналитику

Всем привет! Меня зовут Сергей Кедров, я один из основателей стартапа Fabrique.ai. И сегодня я расскажу, как мы помогаем бизнесу обрабатывать данные, делать предсказания и принимать решения со скоростью событий.

Как возникла идея Fabrique.ai

Fabrique.ai предшествовал другой проект. Это была распределенная скоринговая система, интегрированная с телекомами, интернет-компаниями, платежными системами. Задача заключалась в получении наиболее точной оценки заемщика за счет задействования самых разных и не связанных между собой данных.

Тогда столкнулись с проблемой, что разработать алгоритмы получалось за достаточно разумные сроки, а вот внедрение в эксплуатацию занимало месяцы. Хуже того, не было понятно, как гарантировать, что получаемому предсказанию можно верить? Ведь предсказание это всего лишь число. Легко могло оказаться, что алгоритм сломался и число потеряло смысл, а мы на его основе принимаем решения и о последствиях узнаем лишь спустя месяцы. Огромный риск.

Мы поняли, что нужно решение, которое способно быстро разворачиваться, быстро интегрироваться с данными, очень экономно расходовать вычислительный ресурс и, самое главное, обеспечивать гарантии надежности предсказаний, а также быструю реакцию при выявлении ошибок и аномалий. Вот эта идея и легла в основу нашей разработки, стартовавшей в 2018 году. То есть наша главная идея — выстроить работу с огромным потоком входящих данных здесь и сейчас, для того, чтобы делать самые свежие и актуальные предсказания и быстро исправлять погрешности.

В марте 2019 года Martin Kleppmann, автор книги по распределенным системам и один из авторитетных специалистов в области Computer Science, опубликовал статью «Online Event Processing: Achieving consistency where distributed transactions have failed». В статье был сформулирован архитектурный подход к обработке потоков данных, когда в процесс приходится сохранять промежуточные результаты в различных специализированных хранилищах. Это объективно возникающая потребность, так как для разных задач лучше подходят специализированные базы. Так мы узнали, что делаем систему на основе архитектуры OLEP. В 2018 году, когда начинали, полагаться приходилось только на опыт.

OLEP is the new black или что у нас «под капотом»

OLEP-архитектура гарантирует, что сценарий обработки данных начнется и будет успешно завершен. Это очень важная гарантия при работе с потоками, так как обработка данных происходит строго один раз. Любая ошибка, задержка или необходимость повторного пересчета приводят к накоплению отставания и, в итоге, к коллапсу. Это как пробки на дорогах: пока все едут размеренно в потоке, то и двух полос достаточно. Но стоит даже на 5 минут поток остановить и пробка может парализовать весь город. Это ключевое преимущество OLEP — гарантия консистентности при исполнении сложных сценариев преобразования данных.

Fabrique.ai реализует архитектуру OLEP, предоставляет набор базовых атомарных операций, фреймворк для реализации бизнес-логики и оркестратор для управления операциями на стадиях DataOps, MLOps и DevOps — то есть на стадиях операций с данными, алгоритмами и управлением эксплуатацией.

Непрерывные потоки данных вместо Big Data

Наш продукт решает те задачи, в которых классический подход к работе с данными (та самая Big Data) не эффективен. Что это значит?

Под работой с «большими данными» обычно понимается, что вот сейчас мы соберем все данные в едином хранилище, наведем в них порядок, организуем доступы, инфраструктуру для работы аналитиков и начнется жатва. На практике же каждый день данные все прибывают, ресурсов требуется все больше, затраты растут, а экономический эффект остается открытым вопросом.

Нюанс в том, что ценность данных не одинакова во времени. Данные секунду, минуту, час, день, неделю, месяц, год назад имеют совершенно разную ценность для разных задач. Например, если нужно прямо сейчас предсказать очередь на кассе или отсутствие товара на полке, то нужны данные за последнюю секунду. От данных за вчера пользы мало. Или клиент сейчас звонит в колл-центр с проблемой — проблема случилась сейчас, а не вчера. Еще пример: прямо сейчас товары заканчиваются на полке в магазине — час назад полка была полная, а через 5 минут будет пустая. Даже данные за прошлый час потеряли ценность — нужны данные за последнюю секунду.

Другими словами, в задачах, где ценность данных сильно падает со временем, теряется смысл в накоплении, зато появляется в непрерывной обработке данных со скоростью потоков событий. И именно такие задачи решает Fabrique.ai

Какие преимущества дает работа с данными в реальном времени?

  • Повышение предсказательной силы моделей

Если нужно здесь и сейчас дать рекомендацию клиенту или предсказать то, с какой проблемой он столкнулся, то самые актуальные данные имеют наибольшую силу.

  • Повышение скорости принятия решений

Если есть секунда, а не сутки на то, чтобы предсказать качество готовой продукции, то все преобразования данных и применение алгоритмов надо делать быстро.

  • Повышение скорости time-to-market

Скорость работы с данными и скорость принятия решений требуют радикально сокращать время ввода новых алгоритмов в промышленную эксплуатацию. С месяцев до минут.

Мы живем в непрерывно меняющемся мире. Каждый день что-то происходит новое: законы, кризис, конкуренты, предпочтения меняются, сезон, привычки, новые ошибки возникают. Это значит, что алгоритмы необходимо постоянно до-обучать, чтобы поддерживать их предсказательную силу высокой. Хорошо иметь не один, а много разных конкурирующих алгоритмов, чтобы повысить надежность предсказаний. Ведь предсказания сразу оказывают влияние на клиентов, продукты и бизнес в целом. Необходимо уметь выявлять аномалии в данных и предсказаниях, так как любые изменения в данных и внешней среде немедленно отразятся на предсказаниях. И конечно же, требуется радикально сокращать жизненный цикл DataOps, MLOps, DevOps, чтобы немедленно реагировать на изменения. И именно это обеспечивает Fabrique.ai.

Профит на примерах

Как говорил выше, изначально решение выросло из задач кредитного скоринга. В кредитном скоринге есть одна беда — между моментом предсказания и моментом получения обратной связи о том, оказалось ли предсказание верным, проходят многие месяцы. Это сильно ограничивает возможности быстро реагировать на изменения в окружающем мире. Когда началась пандемия стало очевидно, что, например, нельзя кредитоспособность бизнеса оценивать по его ежегодной и ежеквартальной отчетности. Еще на прошлой неделе это был успешный бизнес, а сегодня на него обрушился тяжелейший кризис. Стало понятно, что нужны новые источники данных и методы работы с данными, которые позволили бы получать обратную связь не спустя месяцы, а хотя бы дни. И вот здесь возможности Fabrique.ai раскрываются в полной мере.

Где полезен Fabrique.AI:

  • В телекомах для решения задач, связанных с клиентским сервисом и персонализацией. С какой проблемой клиент звонит в колл-центр? Какой набор услуг и условия наилучшим образом подойдут тому или иному клиенту? Как сделать, чтобы клиент попробовал новые услуги и остался доволен? Решение каждой из этих задач требует учета самых актуальных данных, предсказаний в реальном времени, получения обратной связи и непрерывного повышения точности предсказаний.
  • В ритейле для управления ассортиментом. Какие товары скоро закончатся на полке и на складе? Как меняется спрос с учетом акций, сезона, погоды, форс-мажора? Нужно ли заказать новую партию или пока запасов хватает? Какие зоны магазина не видны покупателям? Какие товары рекомендовать покупателю с учетом его персональных предпочтений?
  • В банках для персонализации продуктов и предложений. Какие потребительские предпочтения есть у клиента? Какие продукты и предложения вероятно заинтересуют клиента?
  • В логистике для прогнозирования времени доставки заказ покупателю и причин задержки. Когда курьер или машина прибудут к получателю? Из-за чего происходит отклонение от планируемого времени?
  • В промышленности для сокращения количества брака на производстве. Какого качества продукция сейчас сходит с конвейера? В какой точке процесса сейчас возникают дефекты?

Каким образом происходит внедрение решения?

Чтобы упростить компаниям оценку мы сделали демо-стенд, где вживую показываем работу системы и каждый этап подготовки данных, алгоритмов, ввода в эксплуатацию, обеспечения вычислительным ресурсом, различные режимы исполнения, формирование сложных сценариев обработки, сбор и расчет метрик. Демо-стенд позволяет существенно сократить время принятия решения.

Если мы говорим о пилоте, то совместно с заказчиком формируем общую проектную команду, имеющую единые цели и распределенные роли. Наша задача — развернуть систему и помочь с реализацией сценариев. Задача команды со стороны компании — реализовать алгоритмы, попробовать работу с системой, провести демонстрацию проверяемых бизнес-показателей и гипотез. Полноценный пилот может занять до 3-х месяцев. Но его результат — это готовая к промышленной эксплуатации развернутая система, реализованный кейс, знакомая с системой внутренняя команда и готовность к масштабированию для решения разных задач.

При подготовке к пилоту специально стараемся выбрать такую задачу, чтобы результат был на 146% понятен и очевиден бизнесу.

На пилоте мы подтверждаем гипотезу и получаем количественную оценку эффективности. Например, очевидно, что если при производстве продукции на конвейере сразу собирать и обрабатывать данные с различных сенсоров, то в момент схода продукции с конвейера можно сделать прогноз о качестве продукции? Да, это очевидно. Если продукция изготовляется здесь и сейчас, то данные необходимы здесь и сейчас, и только они позволяют сделать прогноз. Оценка экономического эффекта тоже очевидна — заметить брак после первой произведенной единицы продукции, когда данные обрабатываются со скоростью событий, или после тысячной, когда данные проверит контроллер. Очевидно, что тысяча изделий, которые придется отправить на склад или в повторную переработку — это в 1000 раз дороже, это потеря времени и срыв сроков перед клиентами.

Денежный вопрос

Цена складывается из стоимости лицензии, работ по внедрению, адаптации и интеграции в ИТ-контур компании, услуг по обеспечению требуемой линии поддержки. Лицензия рассчитывается исходя из количества процессорных ядер под управлением.

Стоит упомянуть о такой важной особенности архитектуры OLEP, как экономическая эффективность. Обработка данных со скоростью потоков событий позволяет оптимально и равномерно задействовать вычислительный ресурс. То есть нет резких пиков и простоев — система постоянно трудится. Также очень компактным получается хранение, так как нет необходимости хранить все исходные данные. Хранятся агрегаты, метрики, признаки, на которых делались прогнозы — все это в десятки раз компактнее, чем хранение исходных данных и запуск обработки периодически.

Данная характеристика оказывается важной, так как компании, потребители, инвесторы все больше внимания обращают на следование принципам ESG (Environmental, Social, and Corporate Governance). Fabrique.ai — это экологичное решение.

Планы развития компании

Мы уже прошли путь создания MVP, первых успешных пилотов и промышленных внедрений. Участвовали в акселерационных программах MTS Startup Hub, VTB Bootcamp, Raiffeisen Innovations, EY & Microsoft Global pilots, Steeltech, Phystech, MGNtech, Московского акселератора и др.

Количество задач, связанных с предсказаниями на основе алгоритмов AI со скоростью потоков событий, с каждым годом будет только расти. Архитектурно мы хорошо встраиваемся в современный IT-ландшафт корпораций и в облачную инфраструктуру. Объем рынка оцениваем в более $100 млрд.

Сейчас наша основная задача в определении наиболее востребованных ниш и тиражировании внедрения. Для этих целей мы сформировали команду продаж и управления проектами, публикуем статьи в российских и англоязычных изданиях, участвуем в конференциях, готовим документацию и отчуждаемую версию решения, подготовили демо-стенд, где можно на примере задачи пройти все этапы, которые автоматизирует система. Следующий шаг, безусловно, это выход на международный рынок.

Нам очень помогает партнерство с коллегами из ADV/web-engineering. Это один из ведущих цифровых интеграторов с более чем 20-летним опытом реализации сложных проектов в интересах российских и международных компаний. Этот опыт и активное участие коллег помогают нам обеспечивать требуемый корпорациям уровень внедрения решения.

0
Комментарии
-3 комментариев
Раскрывать всегда