НЯН — автоматический агрегатор новостных каналов в Telegram

НЯН собирает сообщения с других новостных каналов в Telegram, склеивает похожие сообщения в сюжеты и разбивает источники на 3 типа. Помогает быстро понимать, кто написал новость, и стоит ли ей доверять.

НЯН — автоматический агрегатор новостных каналов в Telegram

Что означают эмодзи

🇷🇺 Красные. Российские официальные новости и прогосударственные каналы.

🌎 Синие. Оппозиционные и зарубежные каналы.

⚖ Фиолетовые. Нейтральные каналы.

⏱ Самый оперативный. Канал, написавший первым.

👁 Просмотры. Общее количество просмотров по всем постам в сюжете.

Как это работает

  • Обход каналов. Поисковый робот раз в несколько десятков секунд обходит все каналы из списка, формируя поток документов за последние 6 часов.
  • Разбивка на сюжеты. Поток документов разбивается на сюжеты, то есть на наборы документов про одни и те же события, но от разных источников. Как именно — написано здесь, здесь, или тут.
  • Фильтрация сюжетов. Среди получившихся сюжетов оставляются только важные. Текущие критерии важности: количество источников и суммарное количество просмотров за разные промежутки времени. Среди всех больших сюжетов выбираются 40% лучших по просмотрам в час.
  • Выбор аннотации. Для каждого сюжета нужно выбрать тот документ, который будет этот сюжет представлять — аннотацию. Текущие критерии выбора аннотации: русский язык, свежесть, не слишком длинный текст, похожесть на остальные документы сюжета.

Идеология

Гарантируется свобода массовой информации. Цензура запрещается.

Конституция РФ, ст. 29, ч. 5

Я не разделяю ваших убеждений, но готов умереть за ваше право их высказывать.

Эвелин Беатрис Холл
  • Нужность новостей. Новости — важная часть общественной и политической жизни. Если бы никто не распространял новости, многие преступления остались бы безнаказанными. Не нужно игнорировать реальность.
  • Выход из пузыря. «Пузыри фильтров» — это когда соцсети и персонализированные сервисы создают ошибочное впечатление, будто вашу точку зрения разделяет весь мир. Они поляризуют и радикализуют общество, а потому важно их избегать.
  • Справедливое освещение. Если есть несколько позиций, то они должны одинаково присутствовать в канале, независимо от того, сколько источников на той или иной стороне.

Особенности

  • Дисклеймер. Новости группируются автоматически. Сообщение не достоверно. Правдивость информации не проверяется. Потому что это действительно так, и я не хотел бы, чтобы вы принимали все новости за чистую монету. А также из-за законов РФ.
  • Анонимность. Это нужно, чтобы лишний раз не подставляться. Я не считаю, что делаю что-то плохое, скорее наоборот. Но я не доверяю судебной системе, и лишний раз предпочёл бы не связываться с полицией или спецслужбами.
  • Реклама. Её нет и не будет. Единственные мои расходы — содержание сервера, и стоит это меньше коммуналки в моей квартире. Кроме того, зарабатывание денег на распространении новостей — это уже совсем другая статья.
  • Один человек. Команда состоит только из одного человека. Я и инженер, и аналитик, и рекламщик. И расширять команду я не планирую.

Чего НЕ делает канал

  • Проверка достоверности. Канал НЕ проверяет достоверность сообщений. Нет никакой проверки фактов и разоблачения фейков.
  • Изменение оригинальных сообщений. Канал НЕ изменяет тексты источников, за исключением вырезания особенностей форматирования, дисклеймеров и текстовых копирайтов.
  • Ручное вмешательство. Ничего НЕ исправляется руками, за исключением явных технических багов. При этом регулярно меняется сама система.

Вопросы

Почему ты уверен, что разбивка каналов на группы правильная?

Есть объективные данные о совместном попадании различных каналов в сюжеты. Один из способов эти данные отобразить — построить Word2Vec-like модель, где вместо предложений сюжеты, а вместо слов каналы. В результате для каждого канала получается вектор в некотором пространстве.

Чем вероятнее каналы встречаются в одних и тех же сюжетах, тем ближе должны лежать их векторы. Подобная визуализация есть на картинке ниже. Цветами отмечены разные группы источников. Красная и синяя группы явно выделяются на этой картинке.

НЯН — автоматический агрегатор новостных каналов в Telegram

На чём планируешь зарабатывать, если не на рекламе?

Заказы на аналитику и мониторинги, персонализированные каналы и боты. Но об этом пока рано говорить.

Почему такое название?

У НЯН есть вполне конкретная расшифровка, но мне пока не хотелось бы её раскрывать.

Список источников

⚖ Пивоваров (Редакция) • РБК • Овсянка, сэр! • Санкции в РФ • КК • Baza • Афиша Daily • Varlamov News • Военный обозреватель • Ateo Breaking • VC • Ateo Breaking • Осторожно, новости
🌎 Украина Сейчас • Ньюсач/Двач • Протесты в мире • Медиазона • Лентач • BBC News | Русская служба • RadioSvoboda • ЧТД • Настоящее Время • Медуза — LIVE • Сталингулаг • Реальная Война • TJ • DOXA • Новая газета • NEXTA Live • ТРУХА • SOTA • The Village • ОВД-Инфо LIVE • Avtozak LIVE
🇷🇺 Readovka • Mash • RT на русском • Shot • Военный Осведомитель • РИА Новости • Соловьёв • Раньше всех. Ну почти. • ТАСС • Daily Storm

Обратная связь

E-mail: nyan_news@protonmail.com. Говорят, что с mail.ru письма не отправляются, пишите с других ящиков. Буду рад ответить!

На комментарии тоже постараюсь ответить.

1616
13 комментариев

НеЯндексНовости?)

1

Нахуй Яндекс новости)

Круто, понаблюдаем. А подскажите, полный список источников нашел в закрепе. Сюда пост этим списком не дополните?
По каким критериям идёт отбор? Просто каналы с большим количеством участников?

1

Тут не было никаких строгих критериев. Было 3 пути набора каналов:
1) Те, что я читаю сам
2) Те, что присылали пользователи
3) Те, что в топе tgstat по охватам в категории "Новости и СМИ"

Нужно, чтобы канал был новостной и с регулярными постами, и желательно с каким-то уникальным контентом и позицией.

В пост добавил список источников.

Это очень круто, спасибо за отличный канал, наконец-то можно отписаться от 100500+ новостных каналов🚀