{"id":14284,"url":"\/distributions\/14284\/click?bit=1&hash=82a231c769d1e10ea56c30ae286f090fbb4a445600cfa9e05037db7a74b1dda9","title":"\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0444\u0438\u043d\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u043d\u0430 \u0442\u0430\u043d\u0446\u044b \u0441 \u0441\u043e\u0431\u0430\u043a\u0430\u043c\u0438","buttonText":"","imageUuid":""}

Mike

13 авг 2022 13.08.2022

Я добавил рекомендации в GitHub

Браузерное расширение добавит пять похожих репозиториев прямо на страницу с кодом.

Интро

Мне всегда было трудно найти интересные репозитории на GitHub. Кроме того, когда я искал какие-то open-source инструменты или библиотеки, мне приходилось открывать кучу ссылок и вкладок, чтобы посмотреть похожие репозитории.

Тогда-то я и решил, что Гитхабу не хватает рекомендаций на странице репозитория. Как и в любой другой социальной сети, когда вы открываете какой-нибудь пост, то видите еще кучу рекомендуемых постов или видео для повышения вовлеченности. Я подумал, что было бы неплохо иметь список похожих репозиториев прям на странице репозитория.

Немного деталей

Первой проблемой, которую нужно было решить, было получение базы данных с популярными репозиториями гитхаба для использования в качестве пула рекомендаций. Короче говоря, я написал скраппер на python, который загружал все страницы репозиториев гитхаба с более чем 100 звездами и опубликованных за последние 8 лет. Так я хотел избавиться от бесполезного шума в данных и нерелевантных репозиториев.

Следующей задачей было каким-то образом сравнить описания и содержание репозиториев для предоставления рекомендаций. Это работа для текстовых эмбеддингов.

Получение текстовых эмбеддингов

Подробнее о векторных эмбеддингах вы можете прочитать в статье OpenAI. Вкратце, это метод преобразования текста или описания на гитхабе в точку (а точнее вектор) в каком-то векторном пространстве. Что интересно, эти вектора сохраняют некоторую информацию исходного текста. Например, если два текста имеют схожий смысл, их эмбеддинги будут близки друг к другу в векторном пространстве.

В целом, мне нужен был только один запрос к API, поэтому я решил использовать flask в качестве простого и легкого бэкенда. Что касается фронтенда, я подумал, что делать отдельный сайт для рекомендации репозиториев будет неудобно для пользователей (да и мне лень), поэтому я решил сделать его в виде расширения для Chrome и расширения для Firefox.

Вся эта история конечно же не коммерческая, так что весь код открыт для всех желающих: код бэкенд и расширения на гитхабе.

По всем вопросам 👉 github.com/ovyan

------------------

Ссылка на секретный телеграм канал

60 показов

4.6K открытий

3 репоста

48 комментариев

Написать комментарий...

Стакан чая

13.08.2022

Ну вощето нужные репы гуглятся.

Если репа рабочая и как следствие - популярная , она в топе выдачи и везде рекомендуется.

Поэтому искать какой-то нонейм не имеет смысла.

Очередное бесполезное решение

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Кажется, Вы не поняли смысла расширения

Ответить

Развернуть ветку

Котик Котиков

13.08.2022

Я вот тоже не понял, если можно воспользоваться Гуглом

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Если вы наткнулись на какой-нибудь прикольный репозиторий или библиотеку, всегда интересно глянуть альтернативы или похожие продукты. Мне лень такое гуглить)

Ответить

Развернуть ветку

Петя Вася

13.08.2022

обычно внизу этих пакетов в ридми прописаны аналоги) Но может кому-то и пригодится расширение. Идея в целом не топ, но имеет место быть

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Посмотрел по своим звездочкам, не нашёл в readme альтернатив. Да и не все будут упоминать конкурентов у себя)

Ответить

Развернуть ветку

Котик Котиков

13.08.2022

Это опенсурс. Какие конкуренты )

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Все зависит от лицензии)

Ответить

Развернуть ветку

Котик Котиков

13.08.2022

Код то открыт. Любой может зарабатывать тогда, если это апач лицензия. В чем конкуренция то )

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

если это апач лицензия

Вот вы и сами ответили на свой вопрос)

Ответить

Развернуть ветку

Котик Котиков

14.08.2022

Нет конкуренции никакой между проектами

Ответить

Развернуть ветку

Mike

14.08.2022 Автор

Не будет внимания к проекту - им не будут заниматься. Вот и все)

Ответить

Развернуть ветку

Котик Котиков

15.08.2022

Обычно проектами занимаются или для себя или это какая-то учебная разработка. Без разницы на внимание

Ответить

Развернуть ветку

Mike

15.08.2022 Автор

Хаха

Ответить

Развернуть ветку

Владислав Горящий

13.08.2022

чисто из прикола открыл парочку последних что я ставил - никаких аналогов в ридми((

Ответить

Развернуть ветку

Вадим Д.

13.08.2022

Автор, Вы молодец! Забрал себе в полезности, отличная идея и реализация 🤘🏻

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Спасибо!

Ответить

Развернуть ветку

13.08.2022

Такое статьи на хабр бы писать с более подробным описанием алгоритма рекомендаций. На vc не та аудитория)

Ответить

Развернуть ветку

Daily Science

13.08.2022

Почему именно sentence-transformers? Есть какие-то преимущества над другими векторизаторами?

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Короткий ответ: я тестил много подходов, текущий выдавал наиболее точные результаты.

Я работаю с сегментацией параграфов (обычно описание и полезный readme это 3-4 коротких предложения). Я начинал с простого word2vec + tf-idf. Потом попробовал doc2vec. Подсказки были релевантными, но мне не нравилось качество. Понятно, что на 100к описаниях (30% которых это мусор) обучить чего-нибудь стоящего не получится, я начал тестить популярные pre-trained модели. Ну и просто начал с самых популярных моделек на HF. SBERT показался по качеству/скорости самым подходящим вариантом, решил остановиться на нем.

Ответить

Развернуть ветку

Daily Science

13.08.2022

IMHO было б интересно еще векторизовать используемый проектом API. Хотя это toolchain-специфично, конечно, для узкой прикладной задачи должен компактный кластер получиться.

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Что вы имеете в виду под "векторизовать API"?

Ответить

Развернуть ветку

Daily Science

13.08.2022

Для начала, например, выделить библиотеки, которые проект импортируют. Модели естественных языков тут конечно не подойдут, надо обучать.

Ответить

Развернуть ветку

Aleksander Aleksandrov

14.08.2022

Ви таки считаете, что тем, кто ищет нужный код нужны рекомендации....

ладно. ждем 90% кода copilot (удобный кстати) и новых выпускников курсов python.

в интересное время живем, господа.

Ответить

Развернуть ветку

Виталий Литвинов

14.08.2022

В чем удобство?

Ответить

Развернуть ветку

Aleksander Aleksandrov

14.08.2022

решает рутину. иногда удивляет да и вообще - веселей.

следить конечно нужно внимательно и пожалуй, на большие функции не соглашаться.

Короче, иногда говнокодит но больше по делу подставляет варианты.

Ответить

Развернуть ветку

Max Kuznetsov

13.08.2022

Да, как только эмбеддинги не называли... Но вот "вкрапления"... (смайл с вытекшими глазами)

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Изначально статью писал на английском, это был артефакт перевода... спасибо за замечание)

Ответить

Развернуть ветку

Владислав Горящий

13.08.2022

потенциально - довольно полезная вещичка. спасибо, автор!

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Спасибо!

Ответить

Развернуть ветку

Mark Frost

14.08.2022

Охуенчик

Ответить

Развернуть ветку

Pavel Bychko

13.08.2022

Привет
Прошелся по десятку популярных пакетов. В целом - стек/экосистему определяет, но о релевантности говорить слишком рано.

Пример: https://github.com/spatie/laravel-medialibrary
5k звезд, в Readme есть секция Alternatives, ни одного пакета в подсказках нет, сами подсказки нерелевантны

Еще пример: https://github.com/spatie/laravel-backup

Но идея занятная, подписался

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Спасибо за замечание! Да, в выборке пока 80к+ репозиториев. Будет спрос - добавлю больше. Возможно эти репозитории просто не попали в пулл. Да и в теории можно не ограничиваться на 5 рекомендациях, может добавлю кнопку "показать больше".

Ответить

Развернуть ветку

Pavel Bychko

13.08.2022

Анализ всего README, возможно, не нужен. Большей релевантности можно добиться, если анализировать первый заголовок, абзац под ним, поле About ну и название репы

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Сейчас все происходит именно так, как Вы описали)

Ответить

Развернуть ветку

Ренат Ренатович

13.08.2022

Readme есть секция Alternatives

Если она есть - можно и с неё инфу просто выводить там же где и ваша инфа.

Ответить

Развернуть ветку

Rnatery

13.08.2022

добавить просто все репозитории с гитхаб

Ответить

Развернуть ветку

Dmitriy Plehanov

13.08.2022

Profanity - Vanity. Гениально. Ни одного похожего репозитория.

Ответить

Развернуть ветку

Dmitriy Plehanov

13.08.2022

А сорян. Не заметил, перепутал с другим profanity проектом, более популярным. Описание подходит к рекомендациям.

Ответить

Развернуть ветку

RomanistHere

13.08.2022

А можно узнать кейзы для использования расширения? Мне ни разу не приходилось искать похожие к чему-то проекты за годы в разработке и обитания на гитхабе. Плюс оно ищет похожее по идее: react-input найдёт react-input-new & react-form-elements (условно) или просто похожие по структуре проекты на реакте? Первое теоретически могло бы иметь смысл, если бы многочисленные агрегаторы не предлагали кучи альтернатив, а поисковики по каким-то причинам не могли бы работать адекватно.

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

А мне часто интересно посмотреть альтернативы проектам которые лайкают мои друзья, нахожу что-то интересное

Ответить

Развернуть ветку

RomanistHere

13.08.2022

почему именно альтернативы тому, что лайкают друзья? Можно просто смотреть трендинг или рандомные проекты, если цели никакой нету - а, как я понял её нет

Ответить

Развернуть ветку

Mike

13.08.2022 Автор

Спасибо за идею!

Ответить

Развернуть ветку

Князь Тьмы

13.08.2022

А почему на гитхабе написано что авторов два - ты и какой-то Евгений. А тут ты пишешь от первого лица, якобы ты все придумал и ты все сделал?

Ответить

Развернуть ветку

Виталий Литвинов

14.08.2022

Кто успел того и тапки

Ответить

Развернуть ветку

Виталий Литвинов

14.08.2022

Да ну, это ж для гиков. Зачем аналоги искать? Нашел либо копирнул репо и идёшь дальше кодить

Ответить

Развернуть ветку

Рома Кунашко

15.08.2022

Есть еще github topics и collections

Ответить

Развернуть ветку

Херовый русский

13.08.2022

Мне всегда было трудно найти интересные репозитории на GitHub

Пипец нердский круг интересов. Лучше бы на PornHub искал ))

Ответить

Развернуть ветку

Написать комментарий...

45 комментариев

Раскрывать всегда