Что вы имеете в виду под "векторизовать API"?

Mike

Трибуна

13.08.2022

Я добавил рекомендации в GitHub

Браузерное расширение добавит пять похожих репозиториев прямо на страницу с кодом.

9999

Daily Science

13.08.2022

Почему именно sentence-transformers? Есть какие-то преимущества над другими векторизаторами?

Ответить

Mike

13.08.2022

Автор

Короткий ответ: я тестил много подходов, текущий выдавал наиболее точные результаты.

Я работаю с сегментацией параграфов (обычно описание и полезный readme это 3-4 коротких предложения). Я начинал с простого word2vec + tf-idf. Потом попробовал doc2vec. Подсказки были релевантными, но мне не нравилось качество. Понятно, что на 100к описаниях (30% которых это мусор) обучить чего-нибудь стоящего не получится, я начал тестить популярные pre-trained модели. Ну и просто начал с самых популярных моделек на HF. SBERT показался по качеству/скорости самым подходящим вариантом, решил остановиться на нем.

Ответить