{"id":14290,"url":"\/distributions\/14290\/click?bit=1&hash=bece6ae8cf715298895ba844b6416416882fe02c5d18dab2837319deacd2c478","title":"\u041a\u043e\u0440\u043f\u043e\u0440\u0430\u0446\u0438\u0438 \u043a\u0430\u043a \u043d\u0438\u043a\u043e\u0433\u0434\u0430 \u0440\u0430\u043d\u044c\u0448\u0435 \u0445\u043e\u0442\u044f\u0442 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u0447\u0430\u0442\u044c \u0441 \u043c\u0430\u043b\u044b\u043c \u0431\u0438\u0437\u043d\u0435\u0441\u043e\u043c","buttonText":"","imageUuid":""}

Как быть в курсе всего, но не сойти с ума от потока информации

Всем привет! Хочу поделиться способом получать информацию своевременно, дозированно и только самое главное.

Предыстория

В недавнем исследовании было показано, что 75% пользователей мессенджера Telegram считают его основным источником новостей. Это неудивительно, ведь для новостей особенно важная временная составляющая и где, как не в мессенджере с уведомлениями можно ее получить. Новостные агентства давно выкладывают новости в собственные каналы, а пользователи в онлайне видят все интересующее их не выходя из любимого мессенджера. Но кое-что здесь работает не совсем так как хотелось бы.

Проанализировав свои подписки, я заметил, что бОльшая часть постов остается непрочитанной. Неудивительно, ведь бОльшая часть постов на самом деле и не очень-то важны, а действительно интересные новости до вас дойдут от кого-нибудь из знакомых. И это справедливо для тематик, которые вы действительно обсуждаете с друзьями или коллегами. Но у меня большая часть каналов, на которые я подписывался - это более специализированные темы, которые мне особо не с кем обсудить. Так я замечаю, что будучи подписанным на пару технологических каналов я совсем не в теме последних интересных новостей оттуда. Та же ситуация с новостями экономики, финансов, акций, криптовалют, стартапов. Это неприятно, потому что "быть в курсе" - это что-то вроде успевать прочитать все и запомнить важное, верно?

Что я сделал?

Чтобы переосмыслить эту проблему "быть в курсе" широкого пласта тематик, я решил подойти с другой стороны. А что если заменить последовательность "читать все" -> "выделять главное" -> "запоминать главное" на способ "выделять главное, и читать ТОЛЬКО это"? Но как выделять главное, не читая?

На самом деле ответ у меня уже был под рукой. За последнее время я сделал несколько проектов, в которых новостной поток из телеграм-каналов по тому или иному сценарию обрабатывался и на выходе получался поток с новыми характеристиками.

В данном случае мне необходимо было определить, является ли тот или иной пост достойным внимания. Телеграм позволяет считывать помимо количества просмотров, также и количество репостов (пересылок) поста, а оношение второго к первому определяет в каком-то смысле ценность текста для читателей. Если они начинают его пересылать друг другу, то что-то интересное и достойное внимания там скорее всего есть.

Параметры

Чтобы отделить зерна от плевел я проанализировал динамику репостов в большом количестве каналов и выявил, что всего 5-10% сообщений удостаиваются большого количества репостов. В моем случае я выбрал порог 1% от просмотревших переслали сообщение.

Чтобы достоверно определить этот показатель после появляения сообщения приходтся выжидать некоторое время, чтобы статистика успела набраться. В данном случае достаточно 5 минут, чтобы тысячи человек успели прочитать пост и сделать (или не сделать) репосты. То есть через 5 минут после выхода новости я уже знаю, является ли она "вирусной" или нет.

Еще одна проблема, которая у меня возникла - это фильтрация дубликатов. Ведь если новость действительно всех касается, ее начинают выкладывать все кому не лень. Эту проблему я тоже смог побороть и сейчас все работает почти безошибочно.

Что получилось

В итоге у меня получился один телеграм канал вместо двадцати одного (и это только новости экономики, финансов, акций, криптовалют, стартапов)!

В конце каждого сообщения добавляется количество просмотров, репостов сообщения и их отношение (чтобы понимать, насколько широко новость интересна), кроме того идет ссылка на оригинал (канал и сам пост), чтобы можно было посмотреть при необходимости в первоисточнике.

Мне нравится давать красивые имена своим проектам, поэтому этот я назвал как газету в книжке про Гарри Поттера - "Ежедневный пророк", потому что есть здесь какая-то магия, подсматривать, чем люди делятся=)

Если вам понравился мой способ, можете присоединяться, все ссылки у меня в канале.

Всем добра!

0
18 комментариев
Написать комментарий...

Комментарий удален модератором

Развернуть ветку
В А

Идиотизм какой то. Пишет посты, потом смотрит топовые и их читает. Вот и весь способ получать информацию своевременно, дозированно и только самое главное. 
Представляю какую хрень он там пишет в своей телеге))

Ответить
Развернуть ветку
Кирилл Балахонов
Автор

А при чем здесь мои посты?) У меня только ссылка лежит и описание, скорятся посты из 20 каналов, на которые я подписан. Мне кажется, вы не разобрались и написали грубый комментарий) Спасибо за активность, мне она только в плюс)

Ответить
Развернуть ветку
Сергей Никитин

Идея интересная, но система пока работает плохо. Ну слетал какой то хрен в космос и что? А у вас в канале эта новость повторяется 4 раза.
Вы же вроде время пытаетесь сэкономить. Или тот же спорт. Как результат матча повлияет на вашу жизнь, если вы не делаете ставки. Никак.
Нужно оставлять новости только с реальным воздействием на среду вашего существования сейчас или важным вероятностным воздействием в будущем. Все остальные удалять. А вот каким алгоритмом это делать уже другой вопрос.

Ответить
Развернуть ветку
Кирилл Балахонов
Автор

Идея не совсем в этом.

Это просто способ трансформировать «я подписался на 20 каналов, чтобы быть в курсе 5 тем, но не читаю ни одного, потому что их 20» в «я читаю только наиболее цитируемые материалы из всего потока».

Итого я «читаю немного», вместо «не читаю совсем (из-за того что много)» и я в целом в курсе всего основного.

Явные дубликаты у меня алгоритм чистит, а если идёт развитие темы, то наоборот это интересно.

Благодарю за комментарий, интересно услышать критику тоже)

Ответить
Развернуть ветку
Сергей Никитин

Телеграмм плохой инструмент для чтения новостей. Для этого есть rss ридеры с разным функционалом, но проблемы у этих систем те же самые. Они не могут нормально выделить реально важные новости. По факту не важно, чем читать. Нужен просто адекватный алгоритм. А такого я пока не знаю. Возможно кто то из братьев программистов подскажет  стоящее направление куда копать.
С другой стороны это предсказательная система, а это уже довольно сложный пилотаж.
Как вариант делать скоринг статьи по весу ключевиков на уровне нейросети с динамической балансировкой.
Или обучить состязательную нейросеть отличать желтую прессу от важных новостей.

Ответить
Развернуть ветку
Кирилл Балахонов
Автор

Так я тоже не знаю такого алгоритма, если иметь только огромное количество разметки под конкретного пользователя только) Ну иногда плохое решение лучше, чем его отсутствие) А крайнем случае для меня)

Ответить
Развернуть ветку
Сергей Никитин

Как вариант на тест https://www.inoreader.com/
100 каналов rss читаю без проблем. С дублями да. Напряг. Приходится удалять копипастеров.
Для срочно-срочно свои решения. Как показывает практика таких новостей практически нет.

Ответить
Развернуть ветку
Кирилл Балахонов
Автор

👍

Ответить
Развернуть ветку
Иван Печеницын

В обработке естественного языка (Natural language processing) есть и задача ранжирования и сокращения объема текста (авто-реферирование, аннотация или даже генерация заголовка).
Вот пример более технической статьи по созданию агрегатора новостей:
https://towardsdatascience.com/building-a-news-aggregator-from-scratch-news-filtering-classification-grouping-in-threads-and-7b0bbf619b68

Ответить
Развернуть ветку
Кирилл Балахонов
Автор

Я несколько лет работал в Data Science, в том числе в теме NLP. К сожалению, продакшен решений, в которых текст нелинейно преобразуется и у вас не начинает течь кровь из глаз из-за некоторых перлов фактически не существует, несмотря на громадный прогресс в части контекстных эмбеддингов и генеративных моделей, произошедший в последние годы.

Ответить
Развернуть ветку
Alexey Bolshov

Главное, что вы пытаетесь решить проблему.
А есть ли проблема, и найдете ли вы решение, покажет время.

Желаю терпения и умения лучше формулировать мысли (для этого их надо обдумывать подольше, обсуждать сначала приватно с близкими по духу, а уж потом и в паблик можно выносить - сэкономите время свое и читателей).

Ответить
Развернуть ветку
Кирилл Балахонов
Автор

Благодарю за пожелания) Но я для себя проблему решил и поделился с сообществом, судя по новым подписчикам, решение подходит для кого-то ещё, чему я очень рад!
Благодарю за комментарий🤝

Ответить
Развернуть ветку
Дмитрий Кошкин

достаточно интересный подход, спасибо за труды.
а можно создать другой канал из иного списка каналов? или это трудно реализуемая фитча?

Ответить
Развернуть ветку
Кирилл Балахонов
Автор

Можно, пишите в личку

Ответить
Развернуть ветку
EdBy

Интересный подход!  Столкнулся с похожим, но решил проблему философски - задал себе вопрос: для чего мне 20 каналов? какую пользу  от них получаю? )) Ответ не заставил долго себя ждать.

Ответить
Развернуть ветку
Кирилл Балахонов
Автор

Не могу не согласиться, ваше тоже очень хорошее решение!

Ответить
Развернуть ветку
Aleks B
В недавнем исследовании было показано, что 75% пользователей мессенджера Telegram считают его основным источником новостей.

какой пиздец

Ответить
Развернуть ветку
Кирилл Балахонов
Автор

Что поделать, такой дух времени

Ответить
Развернуть ветку
15 комментариев
Раскрывать всегда