Интересный проект получился! Респект вам;) Получается вы на основе семантического анализа определяете индекс цитируемости и на его основе популярность новости? Как работает алгоритм сортировки? 5 лет назад решал для себя точно такую же задачу, но более простыми методами, выбрал вручную 68 источников для 19 категорий и парсил на виртуалке с php, популярность новостей получал из коэффициента цитируемости в соц. сетях. За несколько лет собрал 2,5 млн новостей)
Интересный проект получился! Респект вам;)
Получается вы на основе семантического анализа определяете индекс цитируемости и на его основе популярность новости? Как работает алгоритм сортировки?
5 лет назад решал для себя точно такую же задачу, но более простыми методами, выбрал вручную 68 источников для 19 категорий и парсил на виртуалке с php, популярность новостей получал из коэффициента цитируемости в соц. сетях. За несколько лет собрал 2,5 млн новостей)