Проанализировав свои подписки, я заметил, что бОльшая часть постов остается непрочитанной. Неудивительно, ведь бОльшая часть постов на самом деле и не очень-то важны, а действительно интересные новости до вас дойдут от кого-нибудь из знакомых. И это справедливо для тематик, которые вы действительно обсуждаете с друзьями или коллегами. Но у меня большая часть каналов, на которые я подписывался - это более специализированные темы, которые мне особо не с кем обсудить. Так я замечаю, что будучи подписанным на пару технологических каналов я совсем не в теме последних интересных новостей оттуда. Та же ситуация с новостями экономики, финансов, акций, криптовалют, стартапов. Это неприятно, потому что "быть в курсе" - это что-то вроде успевать прочитать все и запомнить важное, верно?
Идиотизм какой то. Пишет посты, потом смотрит топовые и их читает. Вот и весь способ получать информацию своевременно, дозированно и только самое главное.
Представляю какую хрень он там пишет в своей телеге))
Идея интересная, но система пока работает плохо. Ну слетал какой то хрен в космос и что? А у вас в канале эта новость повторяется 4 раза.
Вы же вроде время пытаетесь сэкономить. Или тот же спорт. Как результат матча повлияет на вашу жизнь, если вы не делаете ставки. Никак.
Нужно оставлять новости только с реальным воздействием на среду вашего существования сейчас или важным вероятностным воздействием в будущем. Все остальные удалять. А вот каким алгоритмом это делать уже другой вопрос.
Идея не совсем в этом.
Это просто способ трансформировать «я подписался на 20 каналов, чтобы быть в курсе 5 тем, но не читаю ни одного, потому что их 20» в «я читаю только наиболее цитируемые материалы из всего потока».
Итого я «читаю немного», вместо «не читаю совсем (из-за того что много)» и я в целом в курсе всего основного.
Явные дубликаты у меня алгоритм чистит, а если идёт развитие темы, то наоборот это интересно.
Благодарю за комментарий, интересно услышать критику тоже)
В обработке естественного языка (Natural language processing) есть и задача ранжирования и сокращения объема текста (авто-реферирование, аннотация или даже генерация заголовка).
Вот пример более технической статьи по созданию агрегатора новостей:
https://towardsdatascience.com/building-a-news-aggregator-from-scratch-news-filtering-classification-grouping-in-threads-and-7b0bbf619b68
Я несколько лет работал в Data Science, в том числе в теме NLP. К сожалению, продакшен решений, в которых текст нелинейно преобразуется и у вас не начинает течь кровь из глаз из-за некоторых перлов фактически не существует, несмотря на громадный прогресс в части контекстных эмбеддингов и генеративных моделей, произошедший в последние годы.
Главное, что вы пытаетесь решить проблему.
А есть ли проблема, и найдете ли вы решение, покажет время.
Желаю терпения и умения лучше формулировать мысли (для этого их надо обдумывать подольше, обсуждать сначала приватно с близкими по духу, а уж потом и в паблик можно выносить - сэкономите время свое и читателей).