«Яндекс» запустил новый поисковый алгоритм для обработки редких запросов на основе нейронных сетей Статьи редакции

«Яндекс» запустил новый поисковый алгоритм «Палех», в основе которого лежат нейронные сети. Он позволит поисковику «лучше понимать» запросы пользователей не только по ключевым словам, но и по смыслу, рассказали vc.ru в компании.

Новый алгоритм на нейронных сетях позволяет поиску «Яндекса» устанавливать соответствия между поисковым запросом и заголовками веб-страниц даже в том случае, если у них нет общих ключевых слов. Речь идёт о редких и уникальных (низкочастотных) запросах, которые «встречаются чрезвычайно редко, но вместе составляют существенную часть поискового потока», объяснили в «Яндексе». По словам представителей компании, ежедневно поисковик получает около 100 млн таких запросов — это почти треть всех запросов «Яндекса».

В компании представляют график частотного распределения запросов поиска в виде птицы, а низкочастотные запросы — в виде «длинного хвоста». «Такой хвост есть у сказочной Жар-птицы, которая часто появляется на палехской миниатюре. Поэтому мы дали алгоритму название "Палех"», — объяснили в «Яндексе».

Запросы из «длинного хвоста» очень разнообразны, но среди них можно выделить несколько групп. Например, одна из них — запросы от детей, которые пока не освоили язык общения с поиском и часто обращаются к нему как к живому собеседнику: [дорогой яндекс посоветуй пожалуйста новые интересные игры про фей для плантика]. Ещё одна группа — запросы от людей, которые хотят узнать название фильма или книги по запомнившемуся эпизоду: [фильм где человек сажал картошку на другой планете] («Марсианин») или [фильм где физики рассказывали даме про дейтерий] («Девять дней одного года»).

— «Яндекс»

Нейронные сети в поиске «Яндекса» задействованы приблизительно по той же схеме, которая используется при работе с изображениями. Разработчики компании обучили систему, показывая ей конкретные примеры запросов и выдаваемых заголовков, которые они подобрали с помощью накопленной статистики.

Компьютеру проще работать с числами, чем с буквами, и поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. Мы научили нейронную сеть переводить миллиарды известных «Яндексу» заголовков веб-страниц из текста в числа — а точнее, в большие группы чисел. В результате все документы из базы данных «Яндекса» получили координаты в многомерном пространстве.

Вообразить такую систему координат человеку довольно трудно. Давайте упростим задачу и представим, что каждой веб-странице соответствует группа из двух чисел — и мы имеем дело не с многомерным, а всего лишь с двумерным пространством. Тогда получится, что каждое число — это определённая координата по одной из двух осей, а каждая веб-страница просто соответствует точке на двумерной координатной плоскости.

Точно так же в набор чисел можно перевести и текст поискового запроса. Другими словами, мы можем разместить запрос в том же пространстве координат, что и веб-страницу. Замечательное свойство такого представления состоит в том, что чем ближе они будут расположены друг к другу, тем лучше страница отвечает на запрос.

— «Яндекс»

Такой способ обработки запроса и его сопоставления с вероятными ответами в «Яндексе» назвали семантическим вектором.

«Этот подход хорошо работает в тех случаях, когда запрос относится к области "длинного хвоста". Семантические векторы позволяют нам лучше находить ответы на сложные низкочастотные запросы, по которым имеется слишком мало пользовательской статистики», — объяснили в компании.

«Яндекс» использует способ семантического вектора и в других своих сервисах — например, в «Картинках». В будущем компания планирует использовать этот метод для сопоставления запросов и полноценных текстовых документов, а также для обработки профилей пользователей в интернете, учитывая их интересы, предыдущие запросы и переходы по ссылкам.

0
26 комментариев
Написать комментарий...
Виктор Арапов

Хорошая попытка, Яндекс.

Ответить
Развернуть ветку
gw

Но да.

Ответить
Развернуть ветку
Денис Кулагин

Красавчики. Кому интересны технические детали, читайте большую статью на Хабре:

https://habrahabr.ru/company/yandex/blog/314222/

Ответить
Развернуть ветку
Alex Bozhin

Ага, понятно. Сейчас Яндекс сделает выдачу по низкочастотным запросам такой паршивой, что бизнес косяками попрет в Директ, ибо среднечастотные и высокочастотные запросы по seo не осилит по финансам и срокам. Ну давай, "Зеркало Рунета", монетизируйся.

Ответить
Развернуть ветку
Дмитрий Скорик

И при этом релевантность страниц запросу полетела
Те запросы которые должны вести на главную страницу, после обновления 31 октября ведут на второстепенные

Ответить
Развернуть ветку
Dmitry Lupich

ага, просело(

Ответить
Развернуть ветку
Человек-Жигало

Дорогой Яндекс, сделай так, чтобы мама с папой помирились и мы вместе поехали на Карибы.

Ответить
Развернуть ветку
Valeratal No

"фильм где человек сажал картошку на другой планете" - марсинанин - вторая позиция в серпе. На первой "Аиф" с попаданием по ключевым словам
https://yadi.sk/i/SILe6D0hxxj5h

Ответить
Развернуть ветку
RIP Новости

хм, а у меня вот так на режиме инкогнито

Ответить
Развернуть ветку
Yuriy Belonozhkin

Яндекс не нужен

Ответить
Развернуть ветку
Yuriy Belonozhkin

Большую часть за поисковики сделали всякие говносайты типа вопросов мейлру и тематических форумов. Там тоже пишут вопросы на естественном языке и отвечают живые люди, с нейросетью прямо в голове) Это индексируется поисковиками и позволяет уже давно находить всякое по довольно расплывчатым запросам.

Ответить
Развернуть ветку
Денис Кулагин

Как раз цель — сделать такую систему, которая будет быстрее и точнее ответов на Мэйл.ру и при этом не требовать участия человека. Пока сделать это не удалось никому, поэтому Ответы живут себе припеваючи (ещё там компонент общения, конечно).

Если сможете решить такую задачку, станете мультимиллионером просто вмиг.

Ответить
Развернуть ветку
Александр Овсянников

"Фильм где стеклянный лифт вылетает с фабрики" - работает, классное нововведение! Поклон разработчикам.

Ответить
Развернуть ветку
Родион Калимуллин

ггг

Ответить
Развернуть ветку
Andrew Coldfan

О, для меня яндекс станет ещё полезней видимо.
Я и так в нём искал то, что гугл не находил. Редко бывает, но всё же бывает такое. Теперь можно и поисковый запрос писать не пойми как.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Pashket Vulgaris

Яндекс целиком принадлежит рептилоидам как и все значимые активы планеты. Зогчем им набигать?

Ответить
Развернуть ветку
Тимур Шайхулин

Главное чтобы был строгий поиск в кавычках. Чтобы по запросу типа "трёхкамерный многомерный коллайдер" выдавался документ, в котором есть эта строка. Буква в букву. Без нейросетей, морфологии и интеллекта. Уже сейчас не работает. Раздражает иногда этот "умный поиск".

Ответить
Развернуть ветку
Денис Кулагин

Так Яша же честно пишет:

(дополнительная информация о запросе) Точного совпадения с «трёхкамерный многомерный коллайдер» не нашлось. Показаны результаты по запросу без кавычек.

А поиск по точному совпадению у меня лично прекрасно работает.

Ответить
Развернуть ветку
Артём Томилин

А че не так то?

Ответить
Развернуть ветку
Сергей Зорин

Отечественный RankBrain

Ответить
Развернуть ветку
Sht_Anton

Ох уж этот Яндекс:)
Задал "купить танк чебурашка"
гугл сразу отправляет на WoT, а Яша отправляет на Озон за чебурашкой:)

Ответить
Развернуть ветку
Ivan Gorshunov

Google поточнее.

Ответить
Развернуть ветку
Артём Литус

фильм где богатый парень влюбляется в бедную девушку

Ответить
Развернуть ветку
Труба Бу

ну вот ....

Ответить
Развернуть ветку
Родион Кадыров
Ответить
Развернуть ветку
Евгений Шестаков

Такой бред написан там. В стиле арбайтена.

Ответить
Развернуть ветку
Читать все 26 комментариев
null