Пост в блоге Брувель Юлия на vc.ru

Брувель Юлия

От слов по совпадениям до Yati:

как развивался поиск Яндекса на примерах запросов пользователей

Сначала система искала совпадения в документах по словам. Потом перешла к ранжированию из-за того, что страниц стало очень много. Затем поиск стал учитывать ссылки, которых тоже было немало. Позже ранжированию помогал коллективный разум, или «мудрость толпы». Чтобы справиться с уникальными запросами, поиск начал использовать искусственный интеллект. Сегодня искать смысловую связь между запросом и документами помогают тяжелые нейросети, и их обучают асессоры.

На примерах различных запросов посмотрим, как реагировала система на каждом этапе развития, и проследим, как поиск в Яндексе изменился, дойдя до архитектуры Transformers.

Простой поиск. Совпадение по словам.

Пример запроса.

Описание работы системы при ответе.

Алгоритм TFIDF. Учет сложности запроса.

Пример запроса.

Описание работы системы при ответе.

Алгоритм PageRank. Учет ссылок.

Пример запроса.

Описание работы системы при ответе.

Алгоритм Матрикснет. «Мудрость толпы». Поведение пользователей определяет ответ. Учитываются количество кликов по ссылке, учитываются количество запросов.

Пример запроса.

Описание работы системы при ответе.

Алгоритм «Палех». Поиск по смыслу.

Пример запроса.

Купить кокосовое масло

Описание работы системы при ответе.

Каждое слово запроса система преобразовывала в векторы, которые собирались в «мешок слов». Порядок слов при этом не учитывался, сами слова разбивались на буквенные триграммы. В итоге нейросеть получало представление запроса: {мо-оло-ко}, {ко-око-ос}, {ку-пить-ить}. Триграммы входят из текста в словарь известных триграмм. Чтобы найти семантическую связь текста и документа, модель на выходе вычисляет скалярное произведение векторов запроса и заголовка. Если произведение равно нулю, то связь есть, Если больше нуля, то связи с заголовком нет. Таким образом, пройдя через несколько плотных слоев нейронов, «мешок слов» становился семантическим вектором, или embedding, что означает вложение.

Алгоритм «Королев». Учет поисковой статистики.

Пример запроса.

Описание работы системы при ответе.

Алгоритм «Yati». Архитектура Transformers. Поиск по смыслу и статистики поиска.

Пример запроса.

Книги, которые читает режиссёр Иванов.

Описание работы системы при ответе.

Каждый элемент текста представляется для нейросети отдельным вектором. Система учитывает в запросе слова, знак пунктуации, частоту символов и положение слов и знаков. Архитектура Transformers «концертирует внимание» на разных элементах текста и помогает нейросети «увидеть» искомый порядок знаков на интернет-странице, например «читает режиссер Иванов».

Начать дискуссию