Предиктивная аналитика для гостиничного бизнеса: кейс Data.Forecast и Bronevik.com

В индустрии гостеприимства отмены бронирований – привычная боль. До 25% заказов не доходят до заезда, а отели теряют не только деньги, но и возможности продать номерной фонд повторно. В условиях сезонности и нестабильного спроса предсказуемость становится конкурентным преимуществом. Именно эту задачу и взялся решать стартап Data.Forecast – победитель МТС Travel Accelerator, по итогам которого команда провела пилотный проект с одной из крупнейших систем бронирования в России Bronevik.com.

Предиктивная аналитика для гостиничного бизнеса: кейс Data.Forecast и Bronevik.com

Мы поговорили с Алексеем Казьминым, лидером проекта предиктивной аналитики для индустрии гостеприимства Data.Forecast и Дмитрием Симоняном, аналитиком по работе с данными, чтобы узнать, как стартап реализовал пилот с российским отельным консолидатором Bronevik.com и с какими вызовами они столкнулись на пути к реализации идеи.

Как работает Data.Forecast: 2600 параметров, 20 минут обучения и 3 минуты на прогноз

Data.Forecast — первая в России DeepTech-система для гостиничного бизнеса, которая с помощью машинного обучения помогает отелям не гадать, а точно понимать, что ждёт их в ближайшем будущем.

Система предсказывает спрос, вероятность заезда по каждому бронированию, даёт рекомендации по ценам и помогает точнее настраивать маркетинг. Всё это на базе самообучающихся моделей, которые адаптируются под текущие условия и работают быстрее, чем менеджер успеет открыть Excel.

Система автоматически собирает и агрегирует данные из разнородных источников, включая:

  • Динамику бронирований и их характеристики;
  • Активность посетителей сайтов;
  • Конверсию кликов на сайте;
  • Маркетинговые кампании;
  • Погодные условия и другие специфические отраслевые параметры.

Всего анализируется более 2600 параметров, измеряемых с разной периодичностью: от ежедневных до получасовых метрик. Это позволяет учитывать комплексное влияние факторов на спрос, а не просто опираться на исторические тренды. Логика работы моделей позволяет формировать прогноз по различным комбинациям отелей и категорий номеров.

Цели и задачи пилота

В рамках рабочей группы была определена цель пилота — исследовать алгоритмы скоринговой оценки вероятности заезда системы предиктивной аналитики на основе исторического обезличенного датасета Bronevik.com.

Почему это важно?

Все отели или системы бронирования время от времени сталкиваются со схожими проблемами:

  • Непрогнозируемый спрос;
  • Нестабильный поток бронирований и доход от онлайн-каналов продаж;
  • Высокая стоимость привлечения клиента и т.д.

Ещё одно частое явление – денежные потери из-за отмен бронирований и невозможности продажи номерного фонда из-за глубины бронирования. В среднем в индустрии гостеприимства 25% совершенных бронирований позже отменяются.

Благодаря автоматизированным скоринговым моделям и анализу ключевых факторов, влияющих на заезд, система способна предсказать отмену бронирования ещё до того, как гость это сделает. Также можно отметить, что анализ и понимание факторов, влияющих на вероятность заезда, может помочь отельерам изменить сервис и пассивно сократить количество отмен.

Допустим, мы заметили, что самые надежные бронирования совершаются в субботу утром – отельер, размещая рекламу именно в этот период, сокращает количество отмен в будущем.

Основными задачами пилота стали:

  1. Анализ структуры данных и факторов, влияющих на заезд по бронированию.
  2. Доработка моделей машинного обучения по оценке вероятности заезда по бронированию, учитывающей специфические факторы из статической выгрузки данных из Bronevik.com, такие как параметры бронирования, объект, число дней до предполагаемого заселения, срок с момента бронирования и др.
  3. Оценка устойчивости модели на временных данных.

Объем данных датасета составил более 914 тыс. бронирований. В итоге, согласованная схема пилота выглядела так:

Предиктивная аналитика для гостиничного бизнеса: кейс Data.Forecast и Bronevik.com

Техническая кухня: как обучали модель

Целевой переменной для пилота стал факт заезда по данному бронированию: «1» – клиент заехал (бронирование подтверждено), «0» – клиент отменил заказ.

Как строилась модель:

  1. Индивидуальный анализ бронирований. Данные не агрегировались, каждое бронирование анализировалось отдельно.
  2. Временная валидация. Модель обучалась на исторических данных с соблюдением хронологического порядка, исключая возможность «утечки данных из будущего». Алгоритм не получал доступ к информации, которая стала доступна после даты формирования прогноза.
  3. Валидация на скользящих окнах. Качество модели проверялось методом временных срезов, что дополнительно предотвращало проникновение данных из будущего в процессе обучения.

Важно отметить, что при формировании выборок учитывалось «вызревание» бронирований, то есть в обучающую выборку не включались наблюдения, таргет которых невозможно было рассчитать на последнюю дату обучающего окна.

Пояснение: Допустим, сейчас июнь, бронирование было совершено в марте, а заезд планируется в июле. Мы не можем использовать это наблюдение для обучения, так как не можем знать, чем эта бронь закончится - чекином или отменой. Мы обязаны ждать даты заезда, чтобы включить наблюдение в выборку.

Ключевое требование к инжинирингу факторов заключалось в том, что расчет каждого фактора должен выполняться строго на момент совершения бронирования, без использования информации о будущем.

После генерации признаков путем перебора и поиска лучшей комбинации был отобран набор факторов, максимизирующий ключевые метрики и не приводящий к переобучению алгоритма. Отдельно были исключены высоко скоррелированные признаки.

Далее для интерпретации прогнозов модели были рассчитаны оценки Шэпли. Это сделано для того, чтобы оценить вклад каждого параметра и признака в итоговое предсказание модели.

Тем не менее ряд признаков оказался сложно интерпретируемым без кооперации с другими факторами. Для анализа более сложных зависимостей вероятности отмены с перечисленными признаками мы использовали методы, которые раскрывают, как кооперации признаков влияют на прогноз модели и отражают тонкие зависимости, учитываемые алгоритмом.

Результаты пилота

В рамках пилота с Bronevik.com команда Data.Forecast разработала скоринговую модель, способную предсказывать вероятность заездов по бронированиям. Результаты показали высокую точность с учетом ограниченного (пилотного) датасета (метрика AUC > 0.75), что означает хорошую способность системы ранжировать бронирования по риску отмены.

Модель также выявила ряд значимых взаимосвязей между признаками и таргетом. Однако для пилота использовался ограниченный датасет (например без учета информации о типе и географии отелей), а сам период анализа охватывал всего шесть месяцев. Это не позволило оценить устойчивость модели на длинной дистанции и подтвердить однородность данных.

Отдельного внимания заслуживает сегмент бронирований со скоринговым баллом вероятности заезда от 0.65 до 0.8. Он составляет 12,7% от всех заказов, но при этом в данном кластере почти треть всех отмен (29,1%). Средний скоринговый балл вероятности заезда в этом сегменте — 0.74. Именно работа с этой когортой бронирований может стать ключевым направлением для развития сервиса и точечной работы с клиентами, например, за счет использования опережающих инструментов (отправка автоматической ссылки на предоплату, персонифицированная email-коммуникация, чат-бот, комплименты от отелей).

Для полноценной интеграции модели целесообразно расширить массив данных и внедрить мониторинг ключевых метрик на более длительном горизонте. Это позволит сделать прогнозы еще точнее и надежнее для бизнеса.

MTS StartUp Hub – это точка входа в экосистему МТС для технологических компаний, стремящихся к масштабированию своего бизнеса. Основанный в 2017 году, MTS StartUp Hub относится к Департаменту стратегического развития и инвестиций МТС и помогает превращать технологические проекты в прибыльный бизнес, сопровождая стартапы на всех этапах развития.

2
Начать дискуссию