«Помогите найти фильм» — пробуем алгоритмы «Яндекса», чтобы закрыть болезненный вопрос

Тестируем алгоритмы и выдачу поисковой системы на примерах запросов по поиску кинофильмов.

«Помогите найти фильм» — пробуем алгоритмы «Яндекса», чтобы закрыть болезненный вопрос

Многим знакома ситуация: видели фильм много лет назад, но запомнились лишь отдельные кадры, персонажи или сюжетные линии. Найти фильм целиком по случайным деталям, если не помнишь ни названия, ни режиссёра, ни актёров, очень трудно.

Сотрудники vc.ru решили провести эксперимент и проверить, как работает поиск «Яндекса» по разным запросам. Мы попросили друзей поделиться обрывками воспоминаний о фильмах. И попробовали найти эти видео через «Яндекс».

Ищем фильм по одному эпизоду

Как-то видела фильм по телевизору, комедию. Давно уже, лет 10 назад, если не больше. Там еще колокол упал на монашку. Вроде и чушь, но раньше смотрела такое после работы для разгрузки мозгов.

Валентина, Смотрела комедию и не запомнила название

По запросу «фильм где колокол упал на монашку» находится английская комедия 1990 года «Монахини в бегах» (Nuns On The Run, встречается перевод названия «Монашки в бегах»). Совпадает и сюжет, и жанр, и эпоха (фильм 30-летней давности вполне мог идти по телевизору «лет 10 назад, если не больше»).

«Помогите найти фильм» — пробуем алгоритмы «Яндекса», чтобы закрыть болезненный вопрос

Еще один фильм, который подходит под этот запрос — «Три балбеса». Это кино не про монашек, так что результат не такой явный, зато в нём есть похожий эпизод: как раз с колоколом. Остаётся только решить, какой из фильмов больше соответствует воспоминаниям, а ещё лучше — посмотреть оба, потому что они явно подходят под описание и точно относятся к комедиям.

Часто люди обращаются к «Яндексу», чтобы найти фильм, название которого вылетело из головы. Описывают сюжет, запомнившиеся сцены, яркие детали: за 2017–2019 годы было сделано более 30 миллионов таких запросов, в которых встречались формулировки типа «фильм в котором» или «триллер где».

Уровень развития Поиска на данный момент позволяет искать и достаточно успешно находить информацию даже по неявным запросам. Это стало возможным благодаря применению нейронных сетей на все более и более ранних этапах ранжирования данных, а также серьезным изменениям в архитектуре для экономии ресурсов и сокращения времени поиска.

Впереди еще много работы, иногда мы сталкиваемся с определенным количеством запросов, найти ответ на которые не представляется возможным. Например, [фильм в котором змея молилась вместе с человеком]. Совершенно неясно, что за фильм имеется в виду, хотя до сих пор очень интересно. Или [комедия в которой как правило не наблюдается никакого смысла]. Чтобы свести количество таких случаем к минимуму, мы продолжаем обучать нейросети, тренируем выявлять неявные закономерности в порядке слов и их взаимном расположении, смысловую схожесть текстов на разных языках.

Андрей Данильченко, Отвечает за качество объектного поиска в Яндексе

Ищем фильм по основной интриге

Фильм, в котором люди становятся карликами. Видела пару лет назад краем глаза, даже актёры знакомые, «звёзды», но я не помню, как их всех зовут — у меня плохая память на имена.

Женя, Не помнит, как зовут актёров

Вбиваем в поисковик.

Первым результатом идёт ссылка на фильм 2017 года «Короче» (Downsizing) режиссёра Александра Пэйна. По сюжету, учёные решают сделать население земного шара карликами и решить тем самым проблему с перенаселением планеты. Главные роли в картине исполнили Мэтт Дэймон, Кристоф Вальц и Хонг Чау.

«Помогите найти фильм» — пробуем алгоритмы «Яндекса», чтобы закрыть болезненный вопрос

В аннотации к фильму слова «карлики» нет, но он занимает первую позицию в выдаче, а его содержание полностью соответствует запросу. Такое точное попадание возможно, потому что поисковые системы постоянно улучшаются: специалисты используют всё большие массивы данных, обучают нейросети, тестируют разные способы контроля качества. С 2014 года документы аннотируются характерными запросами. К примеру, для популярного сериала Breaking Bad одной из аннотаций станет запрос [американский сериал про то как варят метамфетамин].

Если у двух запросов множество общих слов, то велика вероятность того, что результаты первого будут подходить и второму. Если же выдача совпадает у совершенно разных запросов, нейросеть берёт во внимание историю поиска. Когда таких статистических данных недостаточно, эффективно работает контент-анализ с помощью нейросетей.

Ищем фильм по характеристике героя

Фильм, в котором девушка подглядывала за чужими жизнями. Новый, судя по картинке. Смотрели вдвоём с подругой, но не досмотрели до конца. В общем, до сих пор интересно, чем там все закончилось.

Алексей, Прервался на середине фильма

В результатах поиска мы видим такие фильмы, как «Подглядывающий», «По ту сторону двери», «Боже мой, как низко я пала!», «Кожа, в которой я живу». Но первый и самый новый фильм в подборке — «Девушка-невидимка» Клаудии Майерс. Скорее всего, Алексей с подругой смотрел именно его, если судить по году выхода — 2019.

«Помогите найти фильм» — пробуем алгоритмы «Яндекса», чтобы закрыть болезненный вопрос

Яндекс предлагает и другие варианты фильмов, которые могут подходит под запрос. Тот или не тот фильм — можно определиться, посмотрев трейлер прямо на странице поисковой выдачи. Без дополнительных переходов по ссылкам и без перемещений между вкладками.

В поисковой выдаче можно смотреть не только трейлеры, но и весь фильм целиком, бесплатно или по подписке. Если её нет, оплатить просмотр можно всё на той же странице, прямо в выдаче.

Ищем фильм, сами не знаем какой

Я люблю смотреть фильмы, но часто не понимаю, что именно хочу посмотреть. Решений мне и на работе хватает, а вечером хочется, чтобы просто всё придумали за меня.

Марина, Любит кино, но не всегда находит на него время

Если пользователь не знает, что конкретно посмотреть, в Яндексе есть подборки фильмов: «Что посмотреть после работы перед сном» и «Что посмотреть с девушкой». А есть более персонализированные подборки — по годам или по жанрам, которые поиск составляет, основываясь на том, какие именно видео понравятся конкретному пользователю.

«Помогите найти фильм» — пробуем алгоритмы «Яндекса», чтобы закрыть болезненный вопрос

Персонализированные подборки строятся на сложном алгоритме рейтингов. У каждого фильма и пользователя в Яндексе есть профиль. Они хранятся на платформе для обработки больших объёмов данных и регулярно обновляются. Профили фильмов содержат параметры, которые помогают соотносить их с профилями пользователей. Когда нужно выдать рекомендацию, начинают работать алгоритмы быстрого поиска подходящих видео: в подборку включаются фильмы, профиль которых подойдёт профилю конкретного пользователя. То есть поиск ориентируется не только на рейтинги и отзывы.

Пользователи уже давно могут ставить оценки фильмам и видео — как на «Кинопоиске», так и прямо в результатах выдачи «Яндекса». В итоге у сервиса за годы существования накопилась большая база данных о том, кто и как оценивает видео. На основании этих оценок каждому фильму в выдаче Яндекса проставляется рейтинг в процентах, который показывает, насколько то или иное видео понравится пользователю. Это сделали специально, чтобы пользователь не путал, например, оценки критиков с персонализированной рекомендацией. Чтобы подобрать функцию, которая будет высчитывать эти проценты, разработчики запустили задание в «Яндекс.Толоке» и анализировать ожидания пользователей от фильмов и персональные рейтинги.

Если человек не знает, что конкретно хочет посмотреть, мы порекомендуем ему подборки фильмов — например, если человек спросит про комедии 2020 года, мы покажем персонализированную подборку на основе его предпочтений. Чем больше фильмов человек ищет и смотрит на Яндексе, тем лучше и точнее работают наши рекомендации и персональный рейтинг фильмов и сериалов. Оценки можно ставить прямо в списке, не переходя на просмотренные фильмы.

Андрей Данильченко, Отвечает за качество объектного поиска в Яндексе

Персонализированные результаты поиска можно фильтровать. Для большинства подборок доступны фильтры по году, стране и ранжирование по популярности, при поиске фильмов за конкретный год возможен также выбор по жанрам. Так что можно сказать, что теперь Яндекс умеет выбирать кино на вечер для своих пользователей точнее, чем сами пользователи.

2525
172 комментария

вчера искал фильм по главному саундтреку - вот это челлендж) 

2

интереса ради проверила яндекс - надо же, так тоже могут

Звучит многообещающе, мне прям нравится

2

А что за устройство стоит на заглавном изображении справа от ноутбука?

Это не ноутбук, это просто монитор с клавиатурой) Пусть ниже указали что это акустическая штука, я подумал что это освежитель воздуха)

1