Зря вот это даже векторные модели первой итерации w2v канули в прошлое.
На практике до вас (не в паблике) я реализовал на Берте подобный функционал. Но у него есть огромный минус. Пока сравниваешь похожие ключи - все отлично. Но стоит сравнить вообще 2 неревантные фразы, так алгоритм показывает очень хорошую схожесть, что сильно выбешивало. При это тот же word2vec отлично работал на таких примерах. Как я понял причина в слишком большой мерности, что приводит к тому что почти все фразы друг другу релевантны, так как в n-мерном пространстве стирается грань.
Хорошая схожесть это как какой разброс между хорошими и плохими? Я сейчас эксперементирую с 4-мя моделями, писал об этом на vc. Закидываю пару ключ-текст и смотрю близкие фразы и у всех очень сильно отличается разброс между цифрами при том, что результаты для первых 100 похожих слов коррелируют плюс-минус. Для справки у 2-й модели размерность [1,1536] у 3-й [1,1024] и у них как будто разброс меньше
Зря вот это
даже векторные модели первой итерации w2v канули в прошлое.
На практике до вас (не в паблике) я реализовал на Берте подобный функционал. Но у него есть огромный минус.
Пока сравниваешь похожие ключи - все отлично. Но стоит сравнить вообще 2 неревантные фразы, так алгоритм показывает очень хорошую схожесть, что сильно выбешивало.
При это тот же word2vec отлично работал на таких примерах.
Как я понял причина в слишком большой мерности, что приводит к тому что почти все фразы друг другу релевантны, так как в n-мерном пространстве стирается грань.
Хорошая схожесть это как какой разброс между хорошими и плохими? Я сейчас эксперементирую с 4-мя моделями, писал об этом на vc. Закидываю пару ключ-текст и смотрю близкие фразы и у всех очень сильно отличается разброс между цифрами при том, что результаты для первых 100 похожих слов коррелируют плюс-минус. Для справки у 2-й модели размерность [1,1536] у 3-й [1,1024] и у них как будто разброс меньше
gensim юзали?