Погрешность 30%: насколько точны данные SimilarWeb и «Яндекс.Радара»

Самым быстрым и простым способом провести конкурентную разведку, оценить посещаемость интересующего сайта и увидеть из каких каналов он получает трафик, долгое время был SimilarWeb. С недавних пор к нему добавился еще и Яндекс.Радар. Но насколько точны данные, получаемые таким путем, и можно ли на них полагаться?

Компания OWOX провела исследование, сравнив точность данных SimilarWeb и Яндекс.Радар с данными Google Analytics на выборке из 550 сайтов. В среднем отклонение по количеству уникальных пользователей в обоих проектах – около 25%. У SimilarWeb отклонение больше зависит от посещаемости проекта, у Яндекс.Радар – от ниши. Более подробно рассказывает CEO OWOX Влад Флакс.

Для трезвой оценки рекламных кампаний нужны не только абсолютные результаты, но и возможность сравнить их с рынком. Например, маркетинг не выполнил план на 5% – это какой результат? Если рынок при этом вырос на 10% — то результат слабый, а если рынок просел на 10%, то хороший.

Источниками таких данных могут служить SimilarWeb и недавно запустившийся Яндекс.Радар. Сложность в том, что многие пользователи замечали, что в этих данных есть погрешность, но не знали, какая именно и насколько можно доверять полученным цифрам.

С одной стороны, такие сервисы и не должны давать точные данные — они служат для отслеживания трендов и независимого сравнения сайтов между собой. С другой стороны, мы заметили, что их показатели значительно отличаются от данных Google Analytics. Иногда в большую сторону, иногда в меньшую, и тренд из-за этого получался неправильным. Конечно, и данные в Google Analytics не абсолютно точные, но в целом мы считаем что они ближе к истинному значению, чем вычисленные косвенным путем.

Поэтому мы решили сравнить точность данных SimilarWeb и Яндекс.Радар с доступными нам в OWOX BI данными Google Analytics. Для сравнения использовались анонимные обезличенные данные 550 сайтов с посещаемостью более 100 тыс. уникальных пользователей в месяц.

Наша задача была ответить на вопрос «Насколько данные SimilarWeb и Яндекс.Радар отличаются от Google Analytics и от чего это зависит?»

Но для начала стоит понять, откуда эти сервисы берут данные.

Природа данных

С Google Analytics все просто – скрипт встроен в код вашего сайта и собирает данные о поведении пользователей. Эта статистика недоступна третьим лицам.

SimilarWeb использует несколько сотен источников, которые можно условно разделить на 4 группы:

  • Глобальные панельные данные с сотен миллионов компьютеров и мобильных устройств. Это анонимная информация, которая не позволяет идентифицировать пользователя. Браузерные расширения и мобильные приложения собирают данные о том, какие сайты он посещает и как переходит с одного на другой.
  • Глобальные данные интернет-провайдеров с миллионами подписчиков.
  • Публичные источники данных с более чем миллиарда сайтов и приложений страниц.
  • Прямые измерения данных с сотен тысяч сайтов и приложений

Яндекс.Радар выделяет 10 000 сайтов по наибольшему количеству посетителей из России. Рейтинг формируется на основе агрегированных обезличенных данных Яндекс.Браузера, Элементов Яндекса, Визуальных закладок, а также браузерных расширений и других продуктов Яндекса. По умолчанию данные аналитических сервисов Яндекса не учитываются.

Как считали погрешность

Чтобы определить, с какой погрешностью эти сервисы определяют посещаемость сайтов, мы сделали следующее:

  • Взяли обезличенные данные сайтов с посещаемостью от 100 тыс. уникальных пользователей (сайты, к которым имеет доступ OWOX BI)
  • Дополнили их данными о количестве уникальных пользователей из SimilarWeb и Яндекс.Радар за ноябрь 2018 года
  • Отфильтровали сайты, для которых в Google Analytics были аномально низкие значения. (Например, если по данным Google Analytics количество пользователей было на порядок меньше, то, вероятнее всего, Google Analytics собирает неполные данные из-за фильтров в представлении).

При этом и у SimilarWeb, и у Яндекс.Радар отклонение сильно зависит от ниши:Для сравнения в качестве метрики мы выбрали уникальных пользователей, так как алгоритм формирования сессий у разных сервисов отличается. Период – ноябрь, потому что декабрь для многих проектов является аномальным месяцем.

В результате мы получили для анализа данные 550 сайтов и вот что увидели.

Результаты

По данным Яндекс.Радар количество уникальных пользователей выше, чем значение в Google Analytics, для 29% сайтов. У SimilarWeb — для 27% сайтов. В целом можно сказать, что Яндекс.Радар и SimilarWeb чаще показывают значение ниже, чем в Google Analytics. Мы здесь специально не используем критерий «правильное» или «неправильное», потому что это зависит от того, с чем вы сравниваете.

Стандартное отклонение у SimilarWeb – 29%, у Яндекс.Радар – 31%. Причем у SimilarWeb оно меньше зависит от посещаемости проекта (в пределах 1-2%), тогда как у Яндекс.Радара – отклонение до 4%.


При этом и у SimilarWeb, и у Яндекс.Радар отклонение сильно зависит от ниши:

Можно предположить, что это связано с природой данных в обучающей выборке, которую сервисы использовали в своих моделях. Например, SimilarWeb активнее использует аддоны, а Яндекс.Радар – Яндекс.Метрику. Это объясняет меньшее отклонение для ecommerce проектов и большее для медийных.

Так что, если вы работаете в ecommerce проекте и вас лишили премии за то, что у конкурента посещаемость по данным Similarweb на 20% больше, то с вероятностью 45% это сделали несправедливо.

Что все это означает

Однозначно и SimilarWeb, и Яндекс.Радар служат ценным источником рыночных данных. Но использовать их надо, как и любой аналитический инструмент, с пониманием природы собранных данных и погрешности измерения, так как для многих расчетов и оценок, отклонение в 30% может оказаться критичным. Надеемся, что полученные результаты помогут вам повысить качество решений, которые вы принимаете на основе данных.

0
17 комментариев
Написать комментарий...
Александр Афанасьев

Из опыта взаимодействия с SimilarWeb могу отметить, что для не особо крупных сайтов (менее 50 000 уников в месяц) точность может быть катастрофически низкая - разница с реальной посещаемостью составляет иногда разы. Причём обычно SimilarWeb имеет склонность к завышению показателей.
При всём при том для некоторых проектов, даже небольших, точность может быть очень высокой.
Для себя сделал вывод, что по Симмлару можно ориентироваться только на порядок посещаемости и понять общую «крупность» проекта. Сколько-нибудь точные данные получить часто невозможно (вернее невозможно полагаться на их достоверность).
С Я.Радаром пока никакого опыта нет.

Ответить
Развернуть ветку
Viktor Nevzorov

В коммерции, например, данные расходятся в разы.

И постоянно консалтеры на встречах бросаются цифрами из SimilarWeb: "Мы тут посмотрели "статистику" по вашему проекту и сравнили с конкурентами...". Это даже не смешно.

Ответить
Развернуть ветку
Dmitry Davydov

Погрешность SimilarWeb намного выше 25%, особенно если говорить о географических особенностях. Иногда в разы, иногда в десятки раз.

Ответить
Развернуть ветку
Темир Ипиев

Не знаю как у вас, у меня практически на всех проектах (сайты от 10 и до 200k трафика) он показывается практически идентичные Analitics данные. Погрешность может быть процентов 5-7%, не больше. Такое ощущение. что он импортирует данные напрямую из Analitics.

Ответить
Развернуть ветку
Alexandr Bagrintsev

Стесняюсь спросить, а что это за источник данных такой: "Analitics"?

Ответить
Развернуть ветку
Al Po

доля пользователей браузера от яндекс порядка нуля. То есть это заведомо огромные погрешности - "Рейтинг формируется на основе данных Яндекс.Браузера"..

Ответить
Развернуть ветку
Oleg

Еще и данные получаются смещённые в сторону сайтов яндекса (пользователи яндекс браузера априори лояльнее к сайтам яндекса).

Ответить
Развернуть ветку
Анастасия Назаренко

Модель, предсказывающая диапазон значений посещаемости, обучалась на выборке без сайтов Яндекса — их намеренно исключили, чтобы избежать предвзятости в расчётах.

Ответить
Развернуть ветку
Харламка

так-то топ-2 браузер в рунете. например по ли.ру можно посмотреть.

Ответить
Развернуть ветку
Andrei Svetlovsky

Когда ничего нет, то и Симилар подойдет, обычно с реальностью он расходится не более чем на порядок. Тренд за полгода также в основном худо-бедно показывает корреляцию со счетчиками, особенно если нет декабря в промежутке

Ответить
Развернуть ветку
Oleg Dergilev

Симларвеб врет и сильно, проекты менее 10К вообще не видит
Я их смотрю через лайинтернет, если стоит, либо pr-cy там тоже привирает но в 50% дает более-менее верные данные

Ответить
Развернуть ветку
Геннадий Томшин

Проверил сайт lunda ru

Similarweb 420 тыс
Радар 164 тыс

Очень большой разброс

Ответить
Развернуть ветку
Andrei K

Если бы еще доступ к similarweb был помесячный. А то 20 000usd отдать за статистику только по одному сша- это жесть.

Ответить
Развернуть ветку
Владислав Кузьмин

Еще заметил странность, что симилар лучше показывает данные о сайтах в рунете. Может наши провайдеры более охотно данные продают.

Ответить
Развернуть ветку
Sergey Luzgin

В радар можно отдать реальные метрики, для сайтов которые это сделали он априори будет точнее симуляра.

Ответить
Развернуть ветку
Andrey Shevtsov

Отличный материал, спасибо!

Ответить
Развернуть ветку
Семен Иващенко
Ответить
Развернуть ветку
14 комментариев
Раскрывать всегда