Разработка рекомендательной системы для видеохостинга RUTUBE.
Всем привет! Мы — команда Neural_City, и сегодня мы расскажем, как нам удалось разработать инновационную рекомендательную систему для видеохостинга RUTUBE.
Это была настоящая работа с нуля, потому что перед нами стояла задача помочь платформе предсказывать интересы новых пользователей, основываясь на их первых действиях и реакциях. Однако, как это часто бывает, сразу возникла трудность: у новых пользователей не было истории просмотров, и это существенно усложняло задачу подбора контента. Но мы справились! Самый большой вызов, с которым мы столкнулись, заключался именно в отсутствии истории взаимодействия пользователей с платформой. Нам нужно было как-то угадать, какие видео могут заинтересовать нового пользователя, основываясь только на его первых действиях. Это как если бы вы заходили в магазин и не могли сказать, что вам нравится, но вам нужно предложить что-то подходящее. Мы решили эту задачу с помощью интеллектуальных алгоритмов, которые учитывают даже самые минимальные реакции пользователей. Этапы работы: 1. Анализ данных и работа с датасетом: В первую очередь нам нужно было разобраться с данными. Мы собрали большую информацию о поведении пользователей, и начали с очистки данных: устранили аномальные значения, обработали пропущенные записи и разобрались с временными зонами пользователей. Это был важный шаг, потому что точность предсказаний зависит от точности данных. Нам нужно было учитывать, в какой временной зоне находится пользователь, чтобы правильно интерпретировать, когда он активно использует платформу. 2. Построение моделей машинного обучения: Для того чтобы предсказать предпочтения пользователей, мы использовали несколько моделей машинного обучения. Мы выбрали градиентный бустинг на основе деревьев решений — это позволяет эффективно делать предсказания, анализируя большое количество факторов. Также применяли такие методы, как KNN (классификация на основе соседей) и TF-IDF (анализ текстов для понимания интересов). Для более глубокого анализа использовали LGBMRan. Кроме того, мы внедрили элементы обработки естественного языка (NLP), чтобы анализировать текстовую информацию о видео и интересах пользователей. Это позволило делать рекомендации ещё более точными. 3. Уникальные особенности системы: Что нас отличает от других? Мы не просто генерируем рекомендации по стандартным правилам. В нашей системе используется многократный анализ вовлеченности пользователей. Например, мы исследовали, как время суток влияет на предпочтения пользователей и какие видео чаще всего смотрят в определённое время. Это позволило создавать персонализированные рекомендации, которые учитывают как активность пользователя на платформе, так и внешние факторы, такие как время суток. Одной из уникальных особенностей нашего подхода является то, что мы комбинируем различные источники данных. Это не просто базовые алгоритмы, а гибридная система, где генерируются видеоролики из нескольких источников, таких как контент-база, жанры и другие интересные паттерны. Таким образом, мы можем учитывать более широкий контекст интересов пользователя. Как работает наше приложение? Основной экран нашего приложения выглядит как полка с видео. Эта полка создаётся с помощью алгоритмов искусственного интеллекта. Весь процесс подбора видео можно разделить на три этапа: 1. Первичный отбор. На этом этапе мы используем простые правила для фильтрации контента. 2. Ранжирование. Здесь контент уже оценивается по сложности, популярности и другим меткам. 3. Обратная связь. После того как пользователь посмотрел видео, система получает данные о его действиях (например, был ли клик на видео, поставлен ли лайк или дизлайк), и это используется для улучшения рекомендаций. Все эти этапы работают циклично. Например, если пользователь поставил лайк видео, это помогает улучшить рекомендации в будущем. Кнопка "REFRESH" на экране обновляет список видео, и мы убеждаемся, что он всегда актуален. Важно, что видеоролики не повторяются, чтобы не надоедать пользователю. Результаты. Когда мы внедрили эту систему, результаты не заставили себя долго ждать. Мы заметили значительное улучшение в нескольких важных показателях: - Коэффициент удержания пользователей (RR7): Число пользователей, которые остаются на платформе спустя 7 дней после регистрации, существенно выросло. - Среднее время просмотра: Пользователи стали проводить больше времени на платформе, что повысило Lifetime Value (LTV). - Конверсия в просмотры (CTR): Мы увеличили количество кликов на видео и количество регистраций пользователей. Кроме того, благодаря улучшению рекомендаций и персонализации контента, значительно снизился отток пользователей. Платформа стала более привлекательной для новых пользователей, и они возвращались снова и снова.
Разработка рекомендательной системы для RUTUBE — это не просто создание алгоритмов, а настоящая работа с пользователями и их интересами. Мы стараемся сделать платформу более удобной и персонализированной, чтобы каждый пользователь мог легко найти то, что ему интересно. Это не конец, а только начало, и мы продолжаем работать над улучшением нашего продукта, чтобы каждый новый пользователь мог почувствовать, что для него создан идеальный контент. С уважением, команда Neural_City