Оффтоп Albert Khabibrakhimov
5 804

«Яндекс» запустил новый поисковый алгоритм для обработки редких запросов на основе нейронных сетей

«Яндекс» запустил новый поисковый алгоритм «Палех», в основе которого лежат нейронные сети. Он позволит поисковику «лучше понимать» запросы пользователей не только по ключевым словам, но и по смыслу, рассказали vc.ru в компании.

Новый алгоритм на нейронных сетях позволяет поиску «Яндекса» устанавливать соответствия между поисковым запросом и заголовками веб-страниц даже в том случае, если у них нет общих ключевых слов. Речь идёт о редких и уникальных (низкочастотных) запросах, которые «встречаются чрезвычайно редко, но вместе составляют существенную часть поискового потока», объяснили в «Яндексе». По словам представителей компании, ежедневно поисковик получает около 100 млн таких запросов — это почти треть всех запросов «Яндекса».

В компании представляют график частотного распределения запросов поиска в виде птицы, а низкочастотные запросы — в виде «длинного хвоста». «Такой хвост есть у сказочной Жар-птицы, которая часто появляется на палехской миниатюре. Поэтому мы дали алгоритму название "Палех"», — объяснили в «Яндексе».

Запросы из «длинного хвоста» очень разнообразны, но среди них можно выделить несколько групп. Например, одна из них — запросы от детей, которые пока не освоили язык общения с поиском и часто обращаются к нему как к живому собеседнику: [дорогой яндекс посоветуй пожалуйста новые интересные игры про фей для плантика]. Ещё одна группа — запросы от людей, которые хотят узнать название фильма или книги по запомнившемуся эпизоду: [фильм где человек сажал картошку на другой планете] («Марсианин») или [фильм где физики рассказывали даме про дейтерий] («Девять дней одного года»).

— «Яндекс»

Нейронные сети в поиске «Яндекса» задействованы приблизительно по той же схеме, которая используется при работе с изображениями. Разработчики компании обучили систему, показывая ей конкретные примеры запросов и выдаваемых заголовков, которые они подобрали с помощью накопленной статистики.

Компьютеру проще работать с числами, чем с буквами, и поиск соответствий между запросами и веб-страницами сводится к сравнению чисел. Мы научили нейронную сеть переводить миллиарды известных «Яндексу» заголовков веб-страниц из текста в числа — а точнее, в большие группы чисел. В результате все документы из базы данных «Яндекса» получили координаты в многомерном пространстве.

Вообразить такую систему координат человеку довольно трудно. Давайте упростим задачу и представим, что каждой веб-странице соответствует группа из двух чисел — и мы имеем дело не с многомерным, а всего лишь с двумерным пространством. Тогда получится, что каждое число — это определённая координата по одной из двух осей, а каждая веб-страница просто соответствует точке на двумерной координатной плоскости.

Точно так же в набор чисел можно перевести и текст поискового запроса. Другими словами, мы можем разместить запрос в том же пространстве координат, что и веб-страницу. Замечательное свойство такого представления состоит в том, что чем ближе они будут расположены друг к другу, тем лучше страница отвечает на запрос.

— «Яндекс»

Такой способ обработки запроса и его сопоставления с вероятными ответами в «Яндексе» назвали семантическим вектором.

«Этот подход хорошо работает в тех случаях, когда запрос относится к области "длинного хвоста". Семантические векторы позволяют нам лучше находить ответы на сложные низкочастотные запросы, по которым имеется слишком мало пользовательской статистики», — объяснили в компании.

«Яндекс» использует способ семантического вектора и в других своих сервисах — например, в «Картинках». В будущем компания планирует использовать этот метод для сопоставления запросов и полноценных текстовых документов, а также для обработки профилей пользователей в интернете, учитывая их интересы, предыдущие запросы и переходы по ссылкам.

#новость #яндекс #поиск #нейронные_сети

{ "author_name": "Albert Khabibrakhimov", "author_type": "editor", "tags": ["\u044f\u043d\u0434\u0435\u043a\u0441","\u043f\u043e\u0438\u0441\u043a","\u043d\u043e\u0432\u043e\u0441\u0442\u044c","\u043d\u043e\u0432\u043e\u0441\u0442\u0438","\u043d\u0435\u0439\u0440\u043e\u043d\u043d\u044b\u0435_\u0441\u0435\u0442\u0438"], "comments": 26, "likes": 14, "favorites": 1, "is_advertisement": false, "subsite_label": "flood", "id": 19673, "is_wide": true, "is_ugc": false, "date": "Wed, 02 Nov 2016 11:12:03 +0300" }
{ "id": 19673, "author_id": 53259, "diff_limit": 1000, "urls": {"diff":"\/comments\/19673\/get","add":"\/comments\/19673\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/19673"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199791 }

26 комментариев 26 комм.

Популярные

По порядку

Написать комментарий...
11

Хорошая попытка, Яндекс.

Ответить
–1

Но да.

Ответить
5

Красавчики. Кому интересны технические детали, читайте большую статью на Хабре:

https://habrahabr.ru/company/yandex/blog/314222/

Ответить
3

Ага, понятно. Сейчас Яндекс сделает выдачу по низкочастотным запросам такой паршивой, что бизнес косяками попрет в Директ, ибо среднечастотные и высокочастотные запросы по seo не осилит по финансам и срокам. Ну давай, "Зеркало Рунета", монетизируйся.

Ответить
2

И при этом релевантность страниц запросу полетела
Те запросы которые должны вести на главную страницу, после обновления 31 октября ведут на второстепенные

Ответить
0

ага, просело(

Ответить
1

Дорогой Яндекс, сделай так, чтобы мама с папой помирились и мы вместе поехали на Карибы.

Ответить
0

"фильм где человек сажал картошку на другой планете" - марсинанин - вторая позиция в серпе. На первой "Аиф" с попаданием по ключевым словам
https://yadi.sk/i/SILe6D0hxxj5h

Ответить
0

хм, а у меня вот так на режиме инкогнито

Ответить
11

Яндекс не нужен

Ответить
0

Большую часть за поисковики сделали всякие говносайты типа вопросов мейлру и тематических форумов. Там тоже пишут вопросы на естественном языке и отвечают живые люди, с нейросетью прямо в голове) Это индексируется поисковиками и позволяет уже давно находить всякое по довольно расплывчатым запросам.

Ответить
2

Как раз цель — сделать такую систему, которая будет быстрее и точнее ответов на Мэйл.ру и при этом не требовать участия человека. Пока сделать это не удалось никому, поэтому Ответы живут себе припеваючи (ещё там компонент общения, конечно).

Если сможете решить такую задачку, станете мультимиллионером просто вмиг.

Ответить
0

"Фильм где стеклянный лифт вылетает с фабрики" - работает, классное нововведение! Поклон разработчикам.

Ответить
0

О, для меня яндекс станет ещё полезней видимо.
Я и так в нём искал то, что гугл не находил. Редко бывает, но всё же бывает такое. Теперь можно и поисковый запрос писать не пойми как.

Ответить

Комментарий удален

Комментарий удален

0

Яндекс целиком принадлежит рептилоидам как и все значимые активы планеты. Зогчем им набигать?

Ответить
0

Главное чтобы был строгий поиск в кавычках. Чтобы по запросу типа "трёхкамерный многомерный коллайдер" выдавался документ, в котором есть эта строка. Буква в букву. Без нейросетей, морфологии и интеллекта. Уже сейчас не работает. Раздражает иногда этот "умный поиск".

Ответить
1

Так Яша же честно пишет:

(дополнительная информация о запросе) Точного совпадения с «трёхкамерный многомерный коллайдер» не нашлось. Показаны результаты по запросу без кавычек.

А поиск по точному совпадению у меня лично прекрасно работает.

Ответить
0

А че не так то?

Ответить
0

Отечественный RankBrain

Ответить
0

Ох уж этот Яндекс:)
Задал "купить танк чебурашка"
гугл сразу отправляет на WoT, а Яша отправляет на Озон за чебурашкой:)

Ответить
0

Google поточнее.

Ответить
0

фильм где богатый парень влюбляется в бедную девушку

Ответить
0

ну вот ....

Ответить
0

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Нейронная сеть научилась читать стихи
голосом Пастернака и смотреть в окно на осень
Подписаться на push-уведомления