{"id":10557,"title":"\u0412\u0441\u0451, \u0447\u0442\u043e \u0432\u044b \u043d\u0435 \u0437\u043d\u0430\u043b\u0438 \u043e \u043b\u043e\u0433\u0438\u043d\u0430\u0445 \u0438 \u043f\u0430\u0440\u043e\u043b\u044f\u0445","url":"\/redirect?component=advertising&id=10557&url=https:\/\/vc.ru\/promo\/341444-istoriya-loginov-i-paroley&placeBit=1&hash=94017d4f91c29251d7b976c8b7d1d213142fee516a823204c0a9aa77fdbbb464","isPaidAndBannersEnabled":false}
ЯRUS

Как ЯRUS ежедневно собирает более 56 000 новостей из источников и выбирает из этого самое интересное

Сегодня уже мало кто заходит на один единственный сайт, чтобы почитать новости. Медиаполе современного человека соткано из множества инфопотоков и ресурсов, и для многих вопрос информационной гигиены стоит очень остро. Где и как организовать удобную новостную ленту, которая бы имела максимально широкий охват источников, но при этом выдавала бы из них только интересные конкретному пользователю материалы? Именно эту проблему решает раздел новостей в приложении ЯRUS, о котором пойдет речь ниже.

Ежедневно агрегатор мониторит около 10 тысяч новостных ресурсов и собирает не менее 56 000 новостей для парсинга. Со стороннего ресурса берутся заголовок, текст и изображения, поэтому у пользователя приложения есть возможность прочесть новость, не покидая его. При этом в ленте отображаются не только заголовки, но и лид, что дает возможность быстро оценить, стоит ли открыть новость и продолжить чтение или же листать дальше.

Но собрать новости с ресурсов – это лишь полдела. Важно показать пользователю только действительно важные и обсуждаемые публикации, чтобы сформировать верное представление об актуальной повестке дня. Другими словами, сделать так, чтобы новость о результатах выборов шла первой в выдаче, а о ремонте дороги в Подмосковье – на несколько скроллов ниже. Вторая задача – дать пользователю возможность самому настроить ленту под свои интересы.

Каждую из этих задач решает отдельная лента. Первая называется «Тренды» – в ней юзер видит актуальный срез новостей, которые волнуют общественность на данный момент больше всего. Чтобы новость попала в топ, она должна соответствовать ряду критериев. Во-первых, учитывается посещаемость оригинального источника – чем качественнее новостной ресурс, тем больше у него вес и тем больше вероятность, что его материалы попадут в тренды. Во-вторых, важна дата публикации – у старого материала мало шансов появиться в топе. Также большую роль играет цитируемость, т. е. частота появления того или иного сюжета в медиаполе. Тот факт, что про блокировку Telegram написало много изданий говорит о высокой цитируемости сюжета, поэтому у публикации с такой темой высокие шансы попасть в топ трендов.

Вторую задачу решает лента «Интересы» – ее пользователь может настроить так, как ему удобно, а наполнение происходит уже не на основе популярности новостного сюжета, а на том, как сильно публикация соответствует заданным интересам юзера.

К примеру, человек увлечен автомобилями и наукой и совершенно не хочет читать про политику. Тогда он выбирает соответствующие категории из списка и получает новости лишь по этим двум темам. Интересы можно выбрать не только из списка, но и указать свои.

Поиск публикаций по стандартным категориям осуществляется при помощи искусственного интеллекта, который был обучен определять тему новости на тысячах тренировочных текстов. Благодаря этому пользователь, выбравший в интересах науку, увидит в своей ленте новость, посвященную Большому адронному коллайдеру, даже если в ее тексте нет слова «наука».

При указании же интересов не из списка подбор идет именно по конкретному слову, т. е. в выдаче появляются все новости, в тексте которых это слово встречается. Да, такая модель выглядит более примитивной, но зато для более детальной настройки ленты с собственными интересами существует специальный инструмент: плюс-/минус-слова.

К примеру, пользователь хочет читать новости про дизайн, но не про дизайн интерьеров. Тогда он добавляет минус-слово «интерьер» в соответствующее поле, и в его ленте больше не появится новостей на эту тему. Плюс-слова работают по обратному принципу: они добавляют в ленту больше новостей с указанным словом.

Следующий этап развития раздела – тегировать каждую новость по темам, чтобы собрать объемную базу дополнительной внутренней уточняющей информации, на основе которой алгоритм будет еще точнее сортировать новости по категориям. А планируется это сделать в одном из ближайших релизов.

0
0 комментариев
Популярные
По порядку
Читать все 0 комментариев
Прохождение собеседования на позицию бизнес-аналитика

Личный опыт человека, получившего более 20 офферов на позицию бизнес-аналитика. Время чтения статьи: примерно 8 минут.

В Москве появился фонд, инвестирующий в перспективные транспортные проекты

Фонд развития московского транспорта будет поддерживать стартапы, разрабатывающие прорывные технологии.

Лучший и единственный дневник тренировок в телеграм

Всем привет, меня зовут Антон! У меня не получилось найти идеальное приложение, поэтому я создал минималистичный бот для ведения дневника тренировок, в котором нет ничего лишнего.

Календарь тренировок и статистика в @workoutybot
Ты всё ещё доверяешь калькуляторам веб сервисов ?

При поиске жилья наткнулся на интересный калькулятор "Копить или купить" от ЦИАН.

Как всё успевать, если энергия есть только к вечеру

Что делать, если жизнь начинается только после обеда и надо ли себя перестраивать. Спойлер: есть быстрые способы.

Почему?! Как жажда справедливости может разрушить ваш бизнес и карьеру

«Почему?!» — вот вопрос, который терзает множество людей, кого постигла серьезная неудача. Жизнь в такие моменты кажется несправедливой, но проблема как раз в том, что это и есть справедливость.

Предпринимательский стаж и кредитная история больше не работают

15 лет предпринимательского стажа, «зелёная» кредитная история и отсутствие действующих кредитов вдруг в один момент стали обесценены. Всё это теперь прах и не имеет значения.

Как пандемия изменила рынок онлайн-страхования

Выяснили и рассказываем, как изменился онлайн-спрос на услуги страхования с начала пандемии.

«Обычно думают, что надо рекламировать только дрянь — хорошая вещь и так пойдёт»: как родилась ранняя советская реклама Статьи редакции

Чтобы конкурировать с частниками в годы НЭПа, государству пришлось запускать свои рекламные кампании. Для треста Моссельпром Маяковский писал слоганы, а Родченко рисовал плакаты.

Рекламы хлеба и печенья
«Холакратия, любимые мемчики и прозрачность»: программист о работе в Точке, моделинге и запуске треков на Spotify

Точка — это про людей. Про сотрудников, которые создают удобный банк для бизнеса. Мы запускаем серию интервью с нашей командой, чтобы рассказать, как у нас всё устроено.

«Инновации — это поле для сражений»

Как фуд-ритейл внедряет новые технологии.

null