А ведь круто. Каких только применений не найти для эмбеддингов.
Это разные задачи. Я не моделирую интент и не заменяю поисковик — я сравниваю страницы между собой по одному измеримому признаку и смотрю, где появляются различия.
Да, без фильтрации много шума. Я и использую это именно как диагностический инструмент, чтобы ловить паттерны и аномалии.
Я не пытаюсь моделировать пользовательский интент целиком. Просто сравниваю страницы между собой в одинаковых условиях и смотрю, где возникают паттерны и аномалии. Для этой задачи контекста достаточно.
Я хочу найти либо паттерн , либо аномалию.
Так я просто по ключу и смотрел.
Это вы хорошо сказали: "ценные" факторы до первого апдейта)))
Я ищу максимально семантически близкий фрагмент текста к запросу «клубный дом москва». Идея эксперимента — посмотреть, насколько сайты из топа реально близки к этому запросу с точки зрения текста, без остальных факторов.
Проблемы, так как это влияет на сайты.
embeddingGemma это локальное решение?