Показываю функционал, который позволяет быстро анализировать финансовые новости

В экономической истории есть несколько примеров, когда первый узнавший новость зарабатывал много денег. Огромное количество денег, иначе это было бы рядовый событием и потерялось бы в ленте других событий. Некоторые банковские дома сделали ставку на конкурентную разведку и обмена информацией со своими партнёрами. И вот именно это считается ключевым фактором их успешности в течении столетий.

И вот настали времена, когда распростронение информации стало очень быстрым и не столь затратным как раньше. Даже больше - мы тонем в море информации и наш мозг не справляется с таким потоком информации. Сейчас решается не менее важная задача – как обработать эту информацию.

Весной перед нашей командой поставили задачу – подумайте на тему «как выделить самые важные события». На примере «moscowi.ru» я показал вариант нашего решения такого вопроса – получаем 1500 событий или больше и выделяем главное -> получаем около десятка новостей. Даже столько сложно осознать одному человеку, хотя и гораздо проще чем выискивать из многих сотен. Это уже очень наглядная реализация задачи выделения главного, показываю малую часть, фактически мы реализовали функционала почти в сотню раз больше. То есть там показан 1 процент от реализованного.

Сложный вопрос аналитики событий – что такое главное в новостях? В нейронках есть разные подходы – кластеризация или обучение с учителем.

Если мы пойдём первым путём, то получаем какие-то объединённые группы новостей, объединённые в кластеры по каким-то признакам. В случае языковых моделей наиболее частый случай будет объединение по похожести слов.

Если пойти на обучение с учителем, то вопрос – а всё таки что считать важным. И потом, обучили мы модель как нам кажется правильным выводам, а в следующий час приходит сообщение «биткойн», потом «зерновая сделка». И лента забита только этими событиями, будто нет ничего другого. Только пофиксили эту аномалию, как случился «Израиль», перед тем «конгресс» и после того другой «конгресс». Это конечно можно решить, но уже нужно всерьёз заниматься только этим вопросом.

В общем нейросети хороши, только требуют явно больше внимания и ресурсов, чем мы могли выделить. Для нас это был тупик – нет ни у нас, ни у заказчика таких возможностей, чтобы это поддерживать.

В общем через несколько месяцев отчаяния и надежд мы сделали такую реализацию, которая на наш взгляд решает вопросы - что есть главное, применительно к событиям. Представленная реализация работает на газетных новостях, поскольку это бесплатный вариант, не можем показывать приватные данные.

Думаю, что это не первая тысяча попыток реализовать такой аналитический алгоритм, мы конечно смотрели уже существующие; в конце концов представленная реализация позволяет адекватно понимать тренды событий, поскольку на выходе их не так много и они как-бы сгруппированиы, когда одна новость «включает» в себя целый раздел, и это сильно упрощает понимание ситуации.

В целом на первом этапе такую программу можно считать агрегатором новостей с сортировкой по важности. Таких много, в этой реализации есть свои особенности, которые дают основания считать, что выходные данные адекватно предствляют входные данные. И немаловажно – это можно делать быстро и достаточно недорого, что позволит это использовать массово.

11
3 комментария

Надо исправить "Главные навости по it"

Интересно, но:
1. Купите (или украдите) хотя бы самый примитивный шаблон с какого-нибудь ThemeForest, потому что сейчас - это ужасно.
2. Без понимания того как работает алгоритм и без возможности его донастройки - нет никаких гарантий или уверенности, что пользователь действительно получит "важные" новости.

Насчёт "важные новости". Достаточно адекватно выводит, жареные новости не выводятся, аномалий нет, новости действительно важны для всех.
Если делать какие-то выборки по запросу, то тоже можно - тоже удачно получается.
И я бы выложил алгоритм, только это не только моя работа, работала команда.
Дизайн конечно же переделаем, это в планах.