«Яндекс» рассказал о проблемах «Яндекс.Новостей» в ответ на претензии к освещению митингов

Представители «Яндекса» опубликовали официальный ответ на претензии пользователей в недостаточном освещении антикоррупционных митингов, которые прошли в нескольких городах России 26 марта 2017 года, «Яндекс.Новостями». В компании объяснили, что тему плохо освещали официально зарегистрированные СМИ, а у самого агрегатора есть проблемы с объединением материалов в один сюжет.

Обновлено в 17:27. В «Яндексе» подготовили графики, которые демонстрируют присутствие разных тем в топе «Новостей» 26 марта.

Митинги начались после призыва политика Алексея Навального, который предложил устроить «прогулки» из-за отсутствия реакции властей на расследование Фонда борьбы с коррупцией о премьер-министре Дмитрии Медведеве. В Москве шествие собрало, по разным оценкам, от 8 до 20-25 тысяч человек.

Тема широко обсуждалась в соцсетях, однако была практически не заметна в топ-5 «Яндекс.Новостей», из-за чего пользователи обвинили «Яндекс» в цензуре.

«Ведомости» отмечали, что сюжет о задержании Навального к 15:40 включал в себя 58 сообщений, что превышало количество новостей как минимум в двух других сюжетах из топов, но на главную страницу «Яндекса» эта тема не вышла.  После 16.30 сюжет вообще пропал с главной страницы «Яндекс.Новостей» и из тематических разделов.

Представители «Яндекса» в официальном ответе рассказали, что сюжеты о митингах собирались, но их вес был слишком мал для попадания в топ-5, так как о событии не писали крупнейшие информагентства. Они также отвергли обвинения в ручном вмешательстве в составление рейтингов.

​Для большой темы о митингах, прошедших по всей России, было сформировано несколько сюжетов, которые касались самых разных аспектов — от оценки количества участников в Москве до задержаний во Владивостоке. Дальше автоматически оценивается вес каждого сюжета. Для этого используется много факторов — состав источников, плотность потока информации, время публикации сообщений, вес других сюжетов на ту же тему. Сюжеты ранжируются по весу, первые пять попадают на главную страницу «Яндекса». Топ обновляется и, соответственно, изменяется — вчера это происходило каждые три-четыре минуты.

В момент начала акции — она стартовала на Дальнем Востоке — событие освещали далеко не все СМИ. В результате в первой половине дня сюжеты формировались лишь из сообщений небольших источников, и некоторое время, примерно до 12:15 по Москве, их общего веса не хватало, чтобы вынести тему в топ-5.

— «Яндекс»

В «Яндексе» заметили, что другие темы попадали в топ из-за того, что на них решили отреагировать почти все издания. Кроме того, к некоторым темам могла применяться особенная оптимизация наподобие поисковой.

Несколько раз в течение дня появлялись популярные сюжеты. Например, про Евровидение или помощника депутата, а в Москве — про весенний фестиваль. Их вес был больше, чем вес сюжетов про акции протеста. Более того, в некоторых случаях вес мог быть завышен — в «Яндекс.Новостях» существует оптимизация, аналогичная поисковой, и мы с ней боремся.

При этом, разумеется, сами новости о митинге никуда не исчезали — они оставались в «Яндекс.Новостях» и корректно находились поиском.​

— «Яндекс»

Одной из крупнейших проблем для выхода новостей о митингах в топ представители «Яндекса» назвали изменившийся состав источников: с 1 января 2017 года новостные агрегаторы обязаны транслировать только сообщения зарегистрированных СМИ, в остальных случаях компании придётся нести ответственность за перепечатанные материалы. Кроме того, «Яндекс.Новости» сработали «недостаточно оперативно» из-за проблем с объединением новостей из разных регионов в один сюжет, заметили в компании.

​ В связи с принятием закона о новостных агрегаторах Яндекс.Новости с января 2017 года могут показывать на главной странице, в сюжетах и в тематических рубриках только материалы СМИ, зарегистрированных в Роскомнадзоре. Поэтому количество источников по сравнению с прошлым годом сократилось — это также влияет на вес сюжетов. И если о гололёде в Москве вчера написали практически все городские источники, то о протестах только те, кто решил об этом писать. В таком случае у двух разных сюжетов оказываются неравные шансы на выход в топ.

Мы признаём, что вчера «Яндекс.Новости» отставали от картины дня. Скорее всего, дело в том, что алгоритм кластеризации, который склеивает новости в сюжеты, а сюжеты — в темы, не всегда мог объединять в одну тему, например, сообщения о задержаниях во Владивостоке и об аресте Навального в Москве. 

Иными словами, временами агрегатор мог рассматривать одну большую, сложную и географически обширную тему про протесты как несколько разных тем, что, в свою очередь, могло повлиять на качество работы сервиса. Точно так же алгоритм срабатывает, когда есть много новостей про ДТП с разными людьми в разных городах. Он полагает, что это разные события, и не объединяет их в общий сюжет.

— «Яндекс»

В компании пообещали изучить проблему кластеризации и исправить её, если она действительно будет выявлена.

Обновлено в 17:27. В «Яндексе» подготовили графики, которые демонстрируют присутствие разных тем в федеральном и московском топе «Новостей» 26 марта 2017 года.

​
​

Топ новостей обновляется каждые 3-4 минуты, в среднем 18 раз за час. Выбраны темы, которые чаще всего попадали в топ «Яндекс.Новостей» 26 марта 2017 года. Кроме топ-5, который выводится на главной странице Яндекса, показаны также следующие десять позиций. Для каждой темы отмечено место, которое она занимала в определённый момент времени.

— «Яндекс»
1515
89 комментариев

Ясно, понятно. Независимый агрегатор такой независимый.

66
Ответить

И работает он как-то так (блок-схема) - причём ещё с событий Украины в 14м году. С - стабильность: https://pbs.twimg.com/media/C77RgytW4AArz1y.jpg:large

5
Ответить

Уха-ха )))) Проблема кластеризации)))

56
Ответить

Здесь я бы поверил. На самом деле, говоря самым простым языком, вес новости это обычное число, которое является сверткой (суммой) всех весов (вес -- тоже число) новостных изданий, что написали о митинге. Новости сортируются по этой сумме и показываются. И здесь как назло новости очень широки по географии и темам, так или иначе соответствующие глобальной теме -- митингу. Соответственно, сумма ведется по маленьким разным новостям отдельно, и эти суммы никак не могут обогнать другие новости.

4
Ответить