Понятно, что подобный поиск годится только для небольших коллекций документов и не может быть релевантным. Кроме того, результаты ещё нужно как-то отранжировать по степени соответствия запросу. Для этого использовались простейшие алгоритмы уровня TF-IDF и более поздней вариации – BM25. Оба основаны на частотности заданных ключевых слов и не умеют работать со смыслом и контекстом. (Собственно, в большинстве тематик этого вполне достаточно: вот у нас запрос «самовар купить», а вот листинг, где «самовары» упоминаются 10 раз, «самовар» – 25, «купить» – 25, листинг консолидирован из 10 страниц пагинации. Чего ж вам ещё? Хороший ассортимент, хороший продавец, ещё и рейтинг на Маркете – 4,8).
Ага. Я хотел прикрепить - но тут движок форматы видео не понимает, Ютуб не у всех доступен, а рутуб не встраивается.
Но это легенда
Хорошая статья, спасибо.