Предиктивная аналитика для гостиничного бизнеса: кейс Data.Forecast и Bronevik.com
В индустрии гостеприимства отмены бронирований – привычная боль. До 25% заказов не доходят до заезда, а отели теряют не только деньги, но и возможности продать номерной фонд повторно. В условиях сезонности и нестабильного спроса предсказуемость становится конкурентным преимуществом. Именно эту задачу и взялся решать стартап Data.Forecast – победитель МТС Travel Accelerator, по итогам которого команда провела пилотный проект с одной из крупнейших систем бронирования в России Bronevik.com.
Мы поговорили с Алексеем Казьминым, лидером проекта предиктивной аналитики для индустрии гостеприимства Data.Forecast и Дмитрием Симоняном, аналитиком по работе с данными, чтобы узнать, как стартап реализовал пилот с российским отельным консолидатором Bronevik.com и с какими вызовами они столкнулись на пути к реализации идеи.
Как работает Data.Forecast: 2600 параметров, 20 минут обучения и 3 минуты на прогноз
Data.Forecast — первая в России DeepTech-система для гостиничного бизнеса, которая с помощью машинного обучения помогает отелям не гадать, а точно понимать, что ждёт их в ближайшем будущем.
Система предсказывает спрос, вероятность заезда по каждому бронированию, даёт рекомендации по ценам и помогает точнее настраивать маркетинг. Всё это на базе самообучающихся моделей, которые адаптируются под текущие условия и работают быстрее, чем менеджер успеет открыть Excel.
Система автоматически собирает и агрегирует данные из разнородных источников, включая:
- Динамику бронирований и их характеристики;
- Активность посетителей сайтов;
- Конверсию кликов на сайте;
- Маркетинговые кампании;
- Погодные условия и другие специфические отраслевые параметры.
Всего анализируется более 2600 параметров, измеряемых с разной периодичностью: от ежедневных до получасовых метрик. Это позволяет учитывать комплексное влияние факторов на спрос, а не просто опираться на исторические тренды. Логика работы моделей позволяет формировать прогноз по различным комбинациям отелей и категорий номеров.
Цели и задачи пилота
В рамках рабочей группы была определена цель пилота — исследовать алгоритмы скоринговой оценки вероятности заезда системы предиктивной аналитики на основе исторического обезличенного датасета Bronevik.com.
Почему это важно?
Все отели или системы бронирования время от времени сталкиваются со схожими проблемами:
- Непрогнозируемый спрос;
- Нестабильный поток бронирований и доход от онлайн-каналов продаж;
- Высокая стоимость привлечения клиента и т.д.
Ещё одно частое явление – денежные потери из-за отмен бронирований и невозможности продажи номерного фонда из-за глубины бронирования. В среднем в индустрии гостеприимства 25% совершенных бронирований позже отменяются.
Благодаря автоматизированным скоринговым моделям и анализу ключевых факторов, влияющих на заезд, система способна предсказать отмену бронирования ещё до того, как гость это сделает. Также можно отметить, что анализ и понимание факторов, влияющих на вероятность заезда, может помочь отельерам изменить сервис и пассивно сократить количество отмен.
Допустим, мы заметили, что самые надежные бронирования совершаются в субботу утром – отельер, размещая рекламу именно в этот период, сокращает количество отмен в будущем.
Основными задачами пилота стали:
- Анализ структуры данных и факторов, влияющих на заезд по бронированию.
- Доработка моделей машинного обучения по оценке вероятности заезда по бронированию, учитывающей специфические факторы из статической выгрузки данных из Bronevik.com, такие как параметры бронирования, объект, число дней до предполагаемого заселения, срок с момента бронирования и др.
- Оценка устойчивости модели на временных данных.
Объем данных датасета составил более 914 тыс. бронирований. В итоге, согласованная схема пилота выглядела так:
Техническая кухня: как обучали модель
Целевой переменной для пилота стал факт заезда по данному бронированию: «1» – клиент заехал (бронирование подтверждено), «0» – клиент отменил заказ.
Как строилась модель:
- Индивидуальный анализ бронирований. Данные не агрегировались, каждое бронирование анализировалось отдельно.
- Временная валидация. Модель обучалась на исторических данных с соблюдением хронологического порядка, исключая возможность «утечки данных из будущего». Алгоритм не получал доступ к информации, которая стала доступна после даты формирования прогноза.
- Валидация на скользящих окнах. Качество модели проверялось методом временных срезов, что дополнительно предотвращало проникновение данных из будущего в процессе обучения.
Важно отметить, что при формировании выборок учитывалось «вызревание» бронирований, то есть в обучающую выборку не включались наблюдения, таргет которых невозможно было рассчитать на последнюю дату обучающего окна.
Пояснение: Допустим, сейчас июнь, бронирование было совершено в марте, а заезд планируется в июле. Мы не можем использовать это наблюдение для обучения, так как не можем знать, чем эта бронь закончится - чекином или отменой. Мы обязаны ждать даты заезда, чтобы включить наблюдение в выборку.
Ключевое требование к инжинирингу факторов заключалось в том, что расчет каждого фактора должен выполняться строго на момент совершения бронирования, без использования информации о будущем.
После генерации признаков путем перебора и поиска лучшей комбинации был отобран набор факторов, максимизирующий ключевые метрики и не приводящий к переобучению алгоритма. Отдельно были исключены высоко скоррелированные признаки.
Далее для интерпретации прогнозов модели были рассчитаны оценки Шэпли. Это сделано для того, чтобы оценить вклад каждого параметра и признака в итоговое предсказание модели.
Тем не менее ряд признаков оказался сложно интерпретируемым без кооперации с другими факторами. Для анализа более сложных зависимостей вероятности отмены с перечисленными признаками мы использовали методы, которые раскрывают, как кооперации признаков влияют на прогноз модели и отражают тонкие зависимости, учитываемые алгоритмом.
Результаты пилота
В рамках пилота с Bronevik.com команда Data.Forecast разработала скоринговую модель, способную предсказывать вероятность заездов по бронированиям. Результаты показали высокую точность с учетом ограниченного (пилотного) датасета (метрика AUC > 0.75), что означает хорошую способность системы ранжировать бронирования по риску отмены.
Модель также выявила ряд значимых взаимосвязей между признаками и таргетом. Однако для пилота использовался ограниченный датасет (например без учета информации о типе и географии отелей), а сам период анализа охватывал всего шесть месяцев. Это не позволило оценить устойчивость модели на длинной дистанции и подтвердить однородность данных.
Отдельного внимания заслуживает сегмент бронирований со скоринговым баллом вероятности заезда от 0.65 до 0.8. Он составляет 12,7% от всех заказов, но при этом в данном кластере почти треть всех отмен (29,1%). Средний скоринговый балл вероятности заезда в этом сегменте — 0.74. Именно работа с этой когортой бронирований может стать ключевым направлением для развития сервиса и точечной работы с клиентами, например, за счет использования опережающих инструментов (отправка автоматической ссылки на предоплату, персонифицированная email-коммуникация, чат-бот, комплименты от отелей).
Для полноценной интеграции модели целесообразно расширить массив данных и внедрить мониторинг ключевых метрик на более длительном горизонте. Это позволит сделать прогнозы еще точнее и надежнее для бизнеса.
MTS StartUp Hub – это точка входа в экосистему МТС для технологических компаний, стремящихся к масштабированию своего бизнеса. Основанный в 2017 году, MTS StartUp Hub относится к Департаменту стратегического развития и инвестиций МТС и помогает превращать технологические проекты в прибыльный бизнес, сопровождая стартапы на всех этапах развития.