Я добавил рекомендации в GitHub

Браузерное расширение добавит пять похожих репозиториев прямо на страницу с кодом.

Я добавил рекомендации в GitHub
9999

Почему именно sentence-transformers? Есть какие-то преимущества над другими векторизаторами?

1
Ответить
Автор

Короткий ответ: я тестил много подходов, текущий выдавал наиболее точные результаты.

Я работаю с сегментацией параграфов (обычно описание и полезный readme это 3-4 коротких предложения). Я начинал с простого word2vec + tf-idf. Потом попробовал doc2vec. Подсказки были релевантными, но мне не нравилось качество. Понятно, что на 100к описаниях (30% которых это мусор) обучить чего-нибудь стоящего не получится, я начал тестить популярные pre-trained модели. Ну и просто начал с самых популярных моделек на HF. SBERT показался по качеству/скорости самым подходящим вариантом, решил остановиться на нем.

13
Ответить