В связи с принятием закона о новостных агрегаторах Яндекс.Новости с января 2017 года могут показывать на главной странице, в сюжетах и в тематических рубриках только материалы СМИ, зарегистрированных в Роскомнадзоре. Поэтому количество источников по сравнению с прошлым годом сократилось — это также влияет на вес сюжетов. И если о гололёде в Москве вчера написали практически все городские источники, то о протестах только те, кто решил об этом писать. В таком случае у двух разных сюжетов оказываются неравные шансы на выход в топ.
Мы признаём, что вчера «Яндекс.Новости» отставали от картины дня. Скорее всего, дело в том, что алгоритм кластеризации, который склеивает новости в сюжеты, а сюжеты — в темы, не всегда мог объединять в одну тему, например, сообщения о задержаниях во Владивостоке и об аресте Навального в Москве.
Иными словами, временами агрегатор мог рассматривать одну большую, сложную и географически обширную тему про протесты как несколько разных тем, что, в свою очередь, могло повлиять на качество работы сервиса. Точно так же алгоритм срабатывает, когда есть много новостей про ДТП с разными людьми в разных городах. Он полагает, что это разные события, и не объединяет их в общий сюжет.
Ясно, понятно. Независимый агрегатор такой независимый.
И работает он как-то так (блок-схема) - причём ещё с событий Украины в 14м году. С - стабильность: https://pbs.twimg.com/media/C77RgytW4AArz1y.jpg:large
Уха-ха )))) Проблема кластеризации)))
Здесь я бы поверил. На самом деле, говоря самым простым языком, вес новости это обычное число, которое является сверткой (суммой) всех весов (вес -- тоже число) новостных изданий, что написали о митинге. Новости сортируются по этой сумме и показываются. И здесь как назло новости очень широки по географии и темам, так или иначе соответствующие глобальной теме -- митингу. Соответственно, сумма ведется по маленьким разным новостям отдельно, и эти суммы никак не могут обогнать другие новости.