Если учесть, что минимальное значение, которое я видел 0.3, проведем вычисления (0.8-0.73)/(1-0.3)*100% = 10%. Разница не столь значительна, но ощутима. Скажите, вам знакомо, чувство, когда вы вылизали посадочную по вхождениям, чуть проспамили, употребили весь LSI арсенал, а она, сволочь такая, даже не шелохнулась? В чем же дело? Порядок слов в предложении зашит на уровне архитектуры нейросети с помощью метода positional encoding (позиционное кодирование.) Позиция каждого слова кодируется с помощью позиционного эмбеддинга* (вектора), а итоговый эмбеддинг – сумма из эмбеддинга слова и эмбеддинга его позиции.
Кмк, пример с Макроном проблемный. В тексте появляется именованная сущность, и весь текст начинает оцениваться уже в совсем новой плоскости.
Для себя я пока сделал несколько выводов:
а) Каннибалка на объёмах теперь выщёлкивается на раз-два. Грубо говоря, машина куда как легче поймёт, что "пошел отседова", "вали нафиг" и "сударь, извольте покинуть сию обитель" - это про одно.
б) Для проектов в сложных тематиках или с большим объёмом инфо-контента - инструментарий мастхав. Листингам товаров это не нужно.
в) То, что хорошо зашло в выдачу на первичном ранжировании (где рулят всё те же вхождения), а потом съехало, стоит оценивать и с этой точки зрения, потому что машина по итогам могла определить страничку как "не про то".
г) Подход оценки семантики "в ширину" своё отжил, контекст рулит.
б) согласен там коммерчский ранж
в) тут ПФки однозначно, такое бывает, когда контент не отвечает ожиданиям пользователя.
г) смотря как оценивать. YATI он же специфически оценивает, у него там не совсем трансформер. грубо говоря, если закопать LSI в подвале где нибудь без ключа в какой либо близости - да согласен, толку от такой ширины не будет. По Гуглу мне Буйлов показывал реальные кейсы, как после обработки нейросетью, внедрение LSI итд +40 по позициям
Пока еще ни одна модель не научилась предсказывать будущее, каким будет итоговая таблица для идеального документа. А будущее это формируется от взвешивания пф и скорее обратной оценки текста. Поэтому можно пользоваться анализаторами "которые что то там показывают", можно пользоваться чем угодно потому что они все равно показывают прошлое. Иначе никак нельзя объяснить серп с 50/50 логридами и полупустыми доками в коммерческой выдаче.
ПФ - всё же другая уже сфера. А семантические инструменты такого рода вполне годны для
а) Проверки работы райтеров. Простая суммаризация текста может показать, что текст малость не о том.
б) Можно быстро проанализировать, содержит ли контент ответы на ожидаемые вопросы - просто PAA через API и скормить тому же чатЖПТ или Gemini, и пусть ищет, есть это в конкретной статье или на сайте вообще.
в) В принципе оценить семантическую релевантность запросу, можно на сравнении с конкурентами в топах для дальнейшего анализа.
Это не вундерваффе в борьбе за топы, но в качестве инструмента - полезнейшая вещь.
Зря вот это
даже векторные модели первой итерации w2v канули в прошлое.
На практике до вас (не в паблике) я реализовал на Берте подобный функционал. Но у него есть огромный минус.
Пока сравниваешь похожие ключи - все отлично. Но стоит сравнить вообще 2 неревантные фразы, так алгоритм показывает очень хорошую схожесть, что сильно выбешивало.
При это тот же word2vec отлично работал на таких примерах.
Как я понял причина в слишком большой мерности, что приводит к тому что почти все фразы друг другу релевантны, так как в n-мерном пространстве стирается грань.
Хорошая схожесть это как какой разброс между хорошими и плохими? Я сейчас эксперементирую с 4-мя моделями, писал об этом на vc. Закидываю пару ключ-текст и смотрю близкие фразы и у всех очень сильно отличается разброс между цифрами при том, что результаты для первых 100 похожих слов коррелируют плюс-минус. Для справки у 2-й модели размерность [1,1536] у 3-й [1,1024] и у них как будто разброс меньше
gensim юзали?