Приземлённо о Data Science, или для чего вам нужны машинное обучение и ИИ

Разобрал на практике экс-директор по онлайн-маркетингу сервиса Biglion.ru Дмитрий Лучкин.

В последнее время о нейросетях часто говорят как о чём-то инновационном, однако алгоритмы для нейросетей появились далеко не сегодня. Основной математический аппарат был разработан ещё несколько десятилетий назад, спустя какое-то время появились языки программирования. Сейчас же всё это стало применимым благодаря тому, что появилось хорошее «железо» и большой объём размеченных данных.

Дело в том, что у аудитории нет чёткого понимания терминов, связанных с ИИ и машинным обучением. Мы попытаемся раскрыть смысл терминов через кейсы с применением данных технологий.

Для начала пара определений:

Искусственный интеллект (artificial intelligence) — это наука и технология создания интеллектуальных компьютерных программ.

Машинное обучение (machine learning) — это обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться.

На практике основные точки пересечения AI с ML и больших данных — итеративность, бета-тестирование, трудности интеграции и масштабирования, работа с данными и «скармливание» этих данных алгоритму. ИИ и машинное обучение сами подстраиваются под данные, пока их перерабатывают.

Кейс 1. Машинное обучение активно используется в тяжелой промышленности, в проектировании летательных аппаратов. Один из примеров — решение задачи минимизации массы крыла самолёта. Построенная авиаконструкторами модель вычисляет минимальную массу крыла самолёта, при которой крыло выдерживает всевозможные нагрузки.

В рамках крупной авиапромышленной компании это позволяет значительно сократить расходы на тестирование и эксплуатацию самолёта. В таких проектах иногда приходится делать гибридную модель или даже собирать свой алгоритм из других.

Кейс 2. В проекте для крупнейшего разработчика систем контроля и автоматизации для космической промышленности, авиации, энергетический, нефтяной и военной отраслей машинное обучение использовалось для того, чтобы смоделировать поведение дизельных и газовых двигателей на азиатском рынке.

Первоначальной бизнес-целью было доказать увеличение маржинальности при переходе от дизельных двигателей на газовые. Помимо этого, было выполнено моделирование «что если» (as if scenarios): что произойдет в случае определённых изменений на рынке.

Кейс 3. Для лидера в области ритейла была построена модель ценообразования и управления промоакциями. Данная модель описывает эластичность спроса и предложения и на основании этой информации предлагает наилучшую цену на текущий момент.

Эффективность модели была доказана количественными показателями: после начала использования результатов модели в стратегии заметно увеличилась валовая прибыль магазинов ценообразования и управления промоакциями. Чтобы добиться результатов, пришлось использовать несколько алгоритмов: Stochastic programming, XGBoost, Lasso Regression.

Кейс 4. В одном из дейтинговых проектов использовали тематическое моделирование, которое предсказывало речевые тактики и выявляло подозрительную, потенциально вредоносную активность (мошенничество, спам, негатив, другой нежелательный трафик).

Моделей поведения пользователей в сервисе достаточно: люди общаются на 120 тысяч тем, из них примерно 40 тысяч основных, 400 — ключевые. Оказалось, что с использованием метода DLA (латентное размещение Дирихле) можно построить самообучаемую машину, работающую с любым языком. В итоге получили высокий уровень корректного отслеживания активностей для их блокировки.

Проект интересен тем, что пришлось «скармливать» машине огромные объёмы данных. Научить её работать на основе данных за более длинный период, чем пара дней или неделя, было нелегко. Для этого, грубо говоря, пришлось делать подобие fingerprints, чтобы в режиме реального времени обрабатывать текущие события, хранить данные и выдавать результат.

Кейс 5. В другой компании (вертикаль ecommerce, но с купонной спецификой) посмотрели историю всех действий 4 млн покупателей за всё время существования продукта. Собрали разные виды действий (заходы, открытия витрин, покупки, уходы с витрин, категории покупок, средний чек, частоту покупок), всего около 200 признаков на одного покупателя, итого 800 млн событий.

Построили предиктивную модель оттока. Она в режиме реального времени показывает, сколько людей, недавно делавших покупки, уйдут с вероятностью 75% и выше (алгоритм выдаёт по любой отсечке). Пользователей при этом можно ранжировать по доходу, по последней покупке, по мобильной платформе и так далее. С этими группами можно работать через письма и push-уведомления.

Внутри алгоритма используется метод «Случайный лес» (Random Forest). На нём же написан модуль самообучаемой рекомендательной системы, которая опирается на те же пользовательские данные — по действиям пользователя ему предлагаются те товары и услуги, которые имеют наибольшую конверсию покупок от предыдущих миллионов покупок.

Пусть это прототип, но он показал конверсию лучше, чем у отраслевых решений по ecommerce — сказывается разная логика и частота покупок, иной средний чек (у купонов он пониже, чем в продаже одежды или электроники).

Кейс 6. Наконец, расскажем о применении метода коллаборативной фильтрации в социальной вертикали. Его смысл заключается в том, чтобы группе пользователей Х по схожим признакам подмешивать в выдаче релевантных пользователей Х1. Пользователям любой социальной сети важно рекомендовать именно тех, с кем им будет интересно общаться. Чтобы это определить, необходима очень многофакторная модель.

Метрика для оценки — retention rate. Если вы подняли retention на 14 или 30 день, значит, людям понравились те, кого вы им рекомендовали. Успешными считались диалоги, в которых больше десяти и 20 сообщений. Эти метрики удалось поднять почти в три раза, и это положительно повлияло на удержание пользователей: ведь во многих проектах пользователи, не находя достаточно общения в первые одну-две недели, попросту уходят.

Уходя от прошлого, уже реализованных кейсов, рассмотрим ближайшее будущее. Кто-то любит перечислять отрасли, которые «умрут» без искусственного интеллекта и машинного обучения.

Мы же считаем, что делать такие заявления пока преждевременно, так как в большинстве областей эти технологии ещё не прижились настолько сильно, чтобы стать неотъемлемой частью бизнес-процессов. Сейчас идёт только адаптация AI-решений во многих отраслях, и на это уйдёт время — до 2020 года, а где-то до 2021-22.

Однако уже можно выделить несколько отраслей, где ИИ и машинное обучение необходимы. Это, во-первых, ВПК: аналитические системы, предсказывающие события, БЛА, дроны и их групповое поведение в бою, а также беспилотные подводные аппараты. В целом, это системы безопасности, которые отвечают не за слежение, а за принятие решения при росте уровня опасности.

Во-вторых, медицина — она только выиграет от снижения числа ошибок, возможности предсказывать вероятность заболеваний по группам, внешним признакам, историческим данным. Третья такая отрасль — сельское хозяйство. Крупные фермеры, которые смогут первыми интегрировать ИИ в свою работу, получат существенное преимущество перед конкурентами и будут направлять развитие агропромышленности.

Если в компании видят перспективу во внедрении AI и ML, то следует проконсультироваться со специалистами по внедрению. На этом этапе может возникнуть проблема, так как бытует мнение, что машинным обучением может заняться любой разработчик.

При должном упорстве и таланте — да, может. Однако нужно понимать, что машинное обучение — это, прежде всего, математика. Необходима очень хорошая база теории вероятностей, математической статистики, линейной алгебры.

С другой стороны — зачастую это опыт с high load проектами и большими данными. Необходимо интересоваться новыми тенденциями, технологиями, общаться с людьми со схожими интересами, потому что вся методология открыта, библиотеки открыты. Помимо этого, очень важно глубокое понимание индустрии и бизнес-процессов. Без всего этого в сфере машинного обучения делать нечего.

#будущее