Спортивная статистика: от события на стадионе до уведомления в телефоне. Как это работает?

Sports.ru объясняет, зачем СМИ нужна спортивная статистика, как и для кого она собирается и как ее можно использовать

Статистика на Sports.ru живет с самого основания сайта – уже 21 год. Сначала редакция считала базовые показатели вручную – лишь несколько турниров для пары тысяч пользователей. Сегодня мы охватываем тысячу турниров в 6 видах спорта, за данными к нам приходят 16 миллионов пользователей ежемесячно, а над сервисом статистики работает отдельная команда из 5 человек.

Зачем Sports.ru спортивная статистика

Статистика — один из инструментов для роста наших ключевых метрик. Это такая же информация о спорте, как и новости, редакционные или пользовательские тексты, ради нее многие пользователи приходят и возвращаются к нам на сайт или в приложения.

Еще это дополнительные страницы для сайта. У нас более 600 000 автоматически построенных страниц с постоянно актуальными данными, новостями и текстами, которые посвящены турнирам, командам, спортсменам. Про количество таких страниц для матчей и гонок умолчу. Каждая из этих страниц влияет и на количество просмотров, которые делает пользователь в рамках сессии, и на трафик. Так мы формируем дополнительные «посадочные» страницы для аудитории из поисковых систем и получаем +15% к уникальным пользователям ежемесячно только за счет статистики.

Данные помогают нам расширять знания о турнирах, командах, матчах и гонках, спортсменах. Например, когда родился каждый из футболистов футбольного клуба «Милан» или какой рост у нападающего сборной Исландии. Предела в данных не видно: помимо базовых данных вроде счета матча отдельным группам пользователей нужны сведения и о том, насколько опасно команда играет в атаке (какой у нее показатель xG), сколько желтых карточек обычно показывает тот или иной судья и так далее. Две недели назад, с возобновлением немецкой Бундеслиги, у нас с пользователями разгорелась дискуссия о том, почему мы перестали показывать данные о судьях до начала игры. Раньше информация появлялась за несколько дней, а сейчас отображается только с началом игры. Ответ скрывался в изменении процесса назначений судей: из-за пандемии COVID-19 арбитра проверяют на наличие вируса в день матча и только после этого заявляют на игру.

Чем больше запросов различных групп пользователей мы покрываем, тем активнее влияем на поведенческие метрики: глубина просмотра, время на сайте, возвращаемость.

Спортивная статистика: от события на стадионе до уведомления в телефоне. Как это работает?

Как собираются данные

С ценностью статистики разобрались. Теперь расскажу, как данные попадают в электронный вид. Начнем с первого звена цепочки — как данные собираются.

Оцифровываются бумажные протоколы. Самый старый вариант сбора данных, с которым я столкнулся сам, когда несколько лет назад работал судьей на Молодежном первенстве России по футболу. После игры все стороны (судья, представители команд) придают бумажным протоколам статус официальных и безапелляционных, подписывая их, затем в течение пары дней данные вручную переносятся в электронный вид. По такому формату все еще живут многие любительские лиги и мелкие турниры профессиональных команд.

Электронные протоколы. Конечно, технологии оптимизируют и эти процессы. Сведения, минуя бумажные документы, попадают сразу в электронные базы данных. Так, в 2016 году судья матча за Суперкубок России между ЦСКА и «Зенитом» Александр Егоров заполнил первый электронный протокол в истории РПЛ. Не отстают и региональные федерации и любительский спорт: в начале 2018 года система электронных протоколов начала работать на матчах первенства Москвы по футболу, а в 2019-м любительская футбольная лига AFL анонсировала собственное приложение, в котором во время игры организаторы могут вносить данные, а участники соревнований – отслеживать статистику. Сразу после игры участники видят заполненный протокол и могут подать апелляцию не через несколько дней, а сразу же. Чаще переносом данных в приложение на игре занимаются судьи, которые отмечают голы и карточки. При этом такой подход еще и помогает самим судьям. Например, при добавлении второй желтой карточки в систему приложение сообщает судьям, что нужно игрока удалить. Такое необходимо даже на международных турнирах, не говоря уже о любительском футболе.

Протоколы — лишь базовые сведения об игре: голы, дисциплинарные санкции, замены. Даже голевые передачи не всегда есть. Для расширенных сведений используются другие методы.

Руками во время матча. Такой процесс — самый распространенный. Смотря видеотрансляцию или находясь на стадионе, люди вносят сведения в электронные системы, откуда данные поступают заказчикам. На игре от одной компании-сборщика информации может работать от одного до 20-30 человек. Количество зависит от целей: данные поступают к медиа, букмекерам или напрямую тренерскому штабу играющей команды, данные нужны в режиме real-time или в течение какого-то времени после игры. Сведения, которые собираются руками, могут быть любыми: от состава на игру и списка авторов голов до координат футболиста, который отдал передачу на другой фланг. Для расширенных сведений вроде координат необходимо дополнительное оборудование, которое показано в видео ниже.

А хотите на себе прочувствовать работу этих сборщиков данных? Вам нужно записать в систему автора забитого гола и как забили этот гол:

Как разобрались с этой ситуацией сборщики статистики в 2011 году, я напишу в комментариях под этой статьей.

Датчики на спортсменах и специальные камеры. Технологии заходят в самые популярные виды спорта, из последнего — интеграция системы спортивной телематики в КХЛ. Теперь на аренах лиги установлены камеры, которые автоматически распознают, где какой игрок на видео и как он двигается, а экипировка хоккеистов и шайбы снабжены чипами. Футбол пытается не отставать и легализует использование датчиков на уровне правил: всего три года назад их нельзя было надевать на футболистов во время официальных игр, а сегодня данные с датчиков можно изучать тренерскому штабу прямо во время этих игр.

Пока это слишком дорого, а качество данных с одних лишь камер может вызывать вопросы (кроме того нужно еще научиться правильно их интерпретировать). Но, уверены, это ненадолго. К примеру, раньше основной проблемой для сбора сведений в режиме реального времени по камерам были «сбитые маркеры». Перед игрой для идентификации игрока на видеотрансляции создается привязка «вот этот человечек на поле» – «такой-то игрок из состава». После того как игроки из одной команды пересекались на поле, их проекции накладывались друг на друга на камере, и маркеры сбивались. С легализованными датчиками на игроках такая проблема уже не стоит.

Придумываются. Иногда для того, чтобы собрать данные, не обязательно даже проводить игры. Так, в 2015 году в Белоруссии между командами «Шахтер» (Солигорск) и «Слуцк» прошел матч-фантом, на который принимались ставки (только в зарубежных букмекерских конторах) и даже производились выплаты. В действительности футболисты на поле не выходили, единственный источник данных — текстовые анонсы на сайтах клубов и сообщение о счете 2:1, на основе которого букмекеры произвели выплаты. Спустя три года Белорусская федерация футбола пожизненно отстранила от футбольной деятельности четырех подозреваемых, двое из них были сотрудниками «игравших» клубов.

Карантин и отсутствие спортивных событий вынудили поставщиков данных действовать креативно. Используя технологии искусственного интеллекта, швейцарский SportRadar смоделировал оставшиеся игры ведущих футбольных чемпионатов, не дожидаясь возвращения турниров. Все по-взрослому: играют 90 минут, ведется статистика, и даже доступны графические трансляции:

Кстати, ставки и тут тоже принимаются. Календарь игр доступен на специальном сайте.

Кем собираются данные

Если 15 лет назад сбором и хранением данных в основном занимались сами организаторы турниров и заинтересованные стороны (Sports.ru тоже), то теперь эти задачи взяли на себя специализированные компании, на рынке их уже сотни. При этом не обязательно даже заключать партнерские соглашения с организаторами турниров, клубами и спортсменами – для того чтобы собрать информацию, достаточно иметь доступ к спортивному событию с трибуны или в трансляции.

Ключевое преимущество таких компаний в том, что они покрывают тысячи турниров в разных видах спорта, а данные предоставляют в едином формате. Поэтому можно сначала приобрести данные одного турнира, а через некоторое время расширить охват до максимально возможного – без дополнительной разработки.

Если вы хотите получать данные о крупных спортивных событиях, то просто вбиваете в поиске что-то вроде «Sports statistics provider» – и мир поставщиков статистических данных для вас открыт.

Для себя мы оцениваем поставщиков данных по трем критериям:

  • Глубина покрытия. Может ли поставщик прислать сведения о передачах конкретного игрока с уточнением, пас был отдан назад или вперед?
  • Ширина покрытия. Испанский женский высший дивизион по футболу есть? А крикет? А песапалло? Кстати, тому, кто здесь в комментариях назовет самый молодой вид спорта, про который писали на Sports.ru, мы подарим наш фирменный свитшот. А читателям vc.ru – скидку 10% на все по промокоду STATSPORTS в нашем сторе.
  • Скорость получения данных. Нам надоело присылать мобильные пуши спустя 3-4 минуты после забитого гола, поэтому год назад мы поменяли поставщика данных для топ-5 футбольных турниров. Теперь пуши приходят в течение одной минуты. Правда, из-за этого потеряли глубину покрытия в пушах и не можем сообщить про отмену гола из-за VAR. В планах до конца года – научить дружить двух поставщиков, чтобы один нам говорил быстро про голы, а второй – спокойно, но про отмену.

Кому и зачем эти данные нужны

Данные, которые собирают специализированные компании, нужны:

  • Букмекерам – чтобы не собирать статистику самостоятельно, чтобы быстро расширять количество событий для ставок и высчитывать коэффициенты автоматически
  • Лигам – чтобы вести учет дисциплинарных санкций, верно определять турнирное положение с учетом особенностей регламента и даже делать зрелищнее трансляции
  • Клубам, тренерам и спортсменам – чтобы следить за своим прогрессом и изучать оппонентов
  • А еще медиа, стадионам, спонсорам, поисковым системам, социальным сетям.

Конечного списка потребителей нет – данные могут понадобиться каждому в любой момент. Чемпионат мира-2018 в России показал, что любой сайт готов разместить сведения о футбольных матчах в период повышенного спроса.

В каком виде данные предоставляют

Все зависит от компании-поставщика данных и самих заказчиков. Клубам и спортсменам нужны многостраничные отчеты и отдельные ресурсы с личным кабинетом и персональными аналитическими раскладами. Остальным необходимы встраиваемые виджеты с данными и «сырые» данные.

Встраиваемые виджеты на сайт: счет, статистика, графическая трансляция, тепловые карты. Пример графической трансляции мы показали чуть выше. Преимущество такого решения в том, что технических навыков для интеграции виджетов на сайт не требуется. Кусок кода вставляется на сайт, информация внутри виджета актуализируется самостоятельно.

Перейдем сразу к самому интересному, к так называемым «сырым» данным.

Вот это они:

Спортивная статистика: от события на стадионе до уведомления в телефоне. Как это работает?

«Сырые» данные — это набор сведений от поставщика данных в едином формате по тысячам турниров. Можно один раз придумать формат сохранения для одного турнира и далее с какой-то заданной цикличностью обновлять содержимое. Ценность «сырых» данных в том, что их можно интерпретировать и использовать как угодно, а еще — хранить архивы, потому что поставщик в стандартном тарифе присылает сведения только за последние два сезона.

Представим, вы получаете данные по каждому матчу футбольной команды «Барселона»: дата и время матча, погодные условия, соперник, состав на матч, замены, голы, судьи и дисциплинарные санкции.

Эти данные помогают отобразить базовые сведения о матчах «Барселоны», но вы можете самостоятельно подсчитать и вывести для пользователя дополнительную информацию:

  • сколько минут провел на поле каждый игрок
  • с каким судьей «Барселона» побеждает чаще
  • как результат игры команды зависит от погоды и времени
  • историю игр с соперником
  • кому больше всего забивал Месси
  • кто не сможет сыграть в следующем матче

Список можно продолжать еще долго, его размер будет зависеть только от вашего воображения и потребностей аудитории.

Sports.ru работает с «сырыми» данными, периодически тестируя новые статистические продукты через виджеты. Например, глубина получаемых данных позволяет нам самостоятельно разработать графическую трансляцию (ту самую, что была выше), а не использовать готовый виджет от поставщика, за который еще нужно отдельно платить. Так как с правами на видеотрансляции в интернете ситуация непростая, в графической трансляции мы видели замену обычной. Мы взяли виджет, проинтегрировали к себе на страницы, не получили никакого видимого эффекта (ни в отзывах, ни в продуктовых метриках), отказались от идеи и не потратили ресурс разработки на то, чтобы создать виджет, который не понравился ни нам, ни аудитории.

Спортивную статистику мы покупаем у специализированных поставщиков и до начала этого года работали с двумя, но с каждым по отдельности в разных продуктах. Работа с одним поставщиком – это всегда риски. Ошибки бывают у всех, поэтому иногда наши пользователи сталкивались с отставшими уведомлениями, видели неправильных авторов голов или даже некорректный счет. Иногда случалось и обратное: мы сортировали турнирные таблицы по регламенту лиги, а сама лига на своем сайте — нет. Для большей надежности мы разработали собственный сервис, который получает данные от нескольких поставщиков, сопоставляет их и отображает более качественные.

Внутри этого сервиса можно вести статистику самостоятельно, в некотором смысле мы сами становимся третьим поставщиком. Для нашей белорусской версии сайта Tribuna.com нужно вести статистику не только по Высшей футбольной лиге, но и по Первой лиге. Данных должного уровня по Первой лиге нет ни у кого, поэтому, чтобы выводить результаты день в день, весь турнир мы ведем вручную, собирая информацию не только со стадиона или по трансляции, но и по группам клубов в социальных сетях.

А уведомления-то откуда?

Пуш-уведомления для нас — мощнейший драйвер возвращаемости, главный инструмент для молниеносного оповещения по горячим темам. Сами уведомления о событиях матча не генерируют огромное количество переходов в приложение, потому что и так дают исчерпывающую информацию, но сразу после финального свистка наши пользователи приходят в приложение уже для изучения статистики, обсуждения игры и текстовых разборов от пользователей и редакции.

Для того чтобы показать или прислать актуальную информацию, нужно сначала забрать ее у поставщика. И если еще 5 лет назад нужно было каждую минуту обращаться к поставщику и автоматически искать новые события в матче, то сейчас для ведущих футбольных турниров сам поставщик уведомляет нас, что гол забит и пора бы обновить информацию на сайте и отправить пуш. Обращаться каждую минуту к поставщику — не какой-то стандарт. Делать это чаще или реже — вопрос на балансе технических ограничений поставщика и желания заказчика показывать актуальные данные. Вторые готовы это делать хоть каждую секунду, первые не готовы нагружать свои серверы и выставляют лимиты на количество обращений за данными (что-то вроде «не более 10 тысяч в день»). Да и разные данные требуют разного обновления: для календаря чемпионата и списка трансферов достаточно один или два раза в день сходить и забрать данные, а для матча, который идет онлайн, такое решение не подойдет.

Процесс для уведомления о голе выглядит так:

  1. Сотрудник компании-поставщика смотрит матч. На стадионе или по видеотрансляции — не важно. Только в случае видео могут быть технические задержки видеодорожки;
  2. Случился гол — этот сотрудник добавляет в систему поставщика информацию о событии;
  3. Поставщик обновляет данные у себя и даже может отправить уведомление (зависит от поставщика и тарифа) заказчикам (Sports.ru) о том, что случилось такое-то событие;
  4. Заказчик каждую минуту автоматически «ходит» к поставщику и сравнивает данные. Если добавлено что-то новое, то копирует себе, если что-то удалено, то удаляет и у себя. Или ждет уведомления от поставщика о том, что данные пора обновить.
  5. Уже сам заказчик формирует уведомление для пользователя. Если уведомление от поставщика пришло, то он ретранслирует его для пользователя. Если уведомление не пришло, но при очередной сверке данных заказчик увидел новое событие, то он самостоятельно генерирует уведомление для пользователя.

Получение данных от поставщика в формате диалога выглядит так (на примере субботнего матча между Байером и Баварией):

Спортивная статистика: от события на стадионе до уведомления в телефоне. Как это работает?

И в заключение

Мы очень любим своих пользователей и мечтаем построить сервис статистики, который покроет все их запросы. Для этого у нас работает выделенная команда, которая точно знает год, когда за победу в футболе стали давать три очка, а не два, готова до посинения спорить о правильности написания французского имени Valentin на русском как Валантен, а не Валентен, а если разбудить их ночью, то они по пунктам распишут критерии для определения голевого паса.

И, чтобы бежать быстрее, нам нужны разработчики (пишем на Go с нуля), которые помогут вывести сервис на новый уровень. Если вы хотите присоединиться к нашей команде или знаете того, кто захочет, пишите нам на jobs@tribuna.digital. Если хотите пообщаться лично, то pontyakov@sports.ru.

Давайте делать спорт лучше. Вместе.

3535
8 комментариев

По поводу гола Роналду или Пепе, которые тогда играли в «Реале». На видео Роналду пробил со штрафного и попал в спину Пепе, от которого мяч залетел в ворота. В Испании на тот момент было два крупных источника статистики: газета Marca и сайт федерации футбола. Marca находится в Мадриде и, как многие считают, поддерживает «Реал». За счет этого гола Роналду мог обойти Месси в рейтинге бомбардиров. Marca записала гол на Роналду. На сайте федерации было иначе: гол записали на Пепе.

9
Ответить

Диалог п поставщиком шикарен!

6
Ответить

удивлен что люди пользуются статистикой у вас. есть же flashscore/myscore 
собирает всю стату спортрадар помоему и продает всем. 
лучше бы рассказали зачем вам вообще это надо, ненавязчиво букам людей продаете?

Ответить

А вы статью читали или сразу в комментарии пошли? Самый первый заголовок в статье – «Зачем Sports.ru спортивная статистика», там вполне развёрнуто описано как и для чего мы ее используем.

Для того, чтобы платить зарплаты сотрудникам, нам нужно на чём-то зарабатывать, и мы, предоставляя бесплатный доступ пользователям к ресурсам сайта, размещаем у себя рекламу. Букмекерские компании – одни из наших рекламодателей. Ровно как и у сайта flashscore.

1
Ответить