Погрешность 30%: насколько точны данные SimilarWeb и «Яндекс.Радара»

Самым быстрым и простым способом провести конкурентную разведку, оценить посещаемость интересующего сайта и увидеть из каких каналов он получает трафик, долгое время был SimilarWeb. С недавних пор к нему добавился еще и Яндекс.Радар. Но насколько точны данные, получаемые таким путем, и можно ли на них полагаться?

Компания OWOX провела исследование, сравнив точность данных SimilarWeb и Яндекс.Радар с данными Google Analytics на выборке из 550 сайтов. В среднем отклонение по количеству уникальных пользователей в обоих проектах – около 25%. У SimilarWeb отклонение больше зависит от посещаемости проекта, у Яндекс.Радар – от ниши. Более подробно рассказывает CEO OWOX Влад Флакс.

Для трезвой оценки рекламных кампаний нужны не только абсолютные результаты, но и возможность сравнить их с рынком. Например, маркетинг не выполнил план на 5% – это какой результат? Если рынок при этом вырос на 10% — то результат слабый, а если рынок просел на 10%, то хороший.

Источниками таких данных могут служить SimilarWeb и недавно запустившийся Яндекс.Радар. Сложность в том, что многие пользователи замечали, что в этих данных есть погрешность, но не знали, какая именно и насколько можно доверять полученным цифрам.

С одной стороны, такие сервисы и не должны давать точные данные — они служат для отслеживания трендов и независимого сравнения сайтов между собой. С другой стороны, мы заметили, что их показатели значительно отличаются от данных Google Analytics. Иногда в большую сторону, иногда в меньшую, и тренд из-за этого получался неправильным. Конечно, и данные в Google Analytics не абсолютно точные, но в целом мы считаем что они ближе к истинному значению, чем вычисленные косвенным путем.

Поэтому мы решили сравнить точность данных SimilarWeb и Яндекс.Радар с доступными нам в OWOX BI данными Google Analytics. Для сравнения использовались анонимные обезличенные данные 550 сайтов с посещаемостью более 100 тыс. уникальных пользователей в месяц.

Наша задача была ответить на вопрос «Насколько данные SimilarWeb и Яндекс.Радар отличаются от Google Analytics и от чего это зависит?»

Но для начала стоит понять, откуда эти сервисы берут данные.

Природа данных

С Google Analytics все просто – скрипт встроен в код вашего сайта и собирает данные о поведении пользователей. Эта статистика недоступна третьим лицам.

SimilarWeb использует несколько сотен источников, которые можно условно разделить на 4 группы:

  • Глобальные панельные данные с сотен миллионов компьютеров и мобильных устройств. Это анонимная информация, которая не позволяет идентифицировать пользователя. Браузерные расширения и мобильные приложения собирают данные о том, какие сайты он посещает и как переходит с одного на другой.
  • Глобальные данные интернет-провайдеров с миллионами подписчиков.
  • Публичные источники данных с более чем миллиарда сайтов и приложений страниц.
  • Прямые измерения данных с сотен тысяч сайтов и приложений

Яндекс.Радар выделяет 10 000 сайтов по наибольшему количеству посетителей из России. Рейтинг формируется на основе агрегированных обезличенных данных Яндекс.Браузера, Элементов Яндекса, Визуальных закладок, а также браузерных расширений и других продуктов Яндекса. По умолчанию данные аналитических сервисов Яндекса не учитываются.

Как считали погрешность

Чтобы определить, с какой погрешностью эти сервисы определяют посещаемость сайтов, мы сделали следующее:

  • Взяли обезличенные данные сайтов с посещаемостью от 100 тыс. уникальных пользователей (сайты, к которым имеет доступ OWOX BI)
  • Дополнили их данными о количестве уникальных пользователей из SimilarWeb и Яндекс.Радар за ноябрь 2018 года
  • Отфильтровали сайты, для которых в Google Analytics были аномально низкие значения. (Например, если по данным Google Analytics количество пользователей было на порядок меньше, то, вероятнее всего, Google Analytics собирает неполные данные из-за фильтров в представлении).

При этом и у SimilarWeb, и у Яндекс.Радар отклонение сильно зависит от ниши:Для сравнения в качестве метрики мы выбрали уникальных пользователей, так как алгоритм формирования сессий у разных сервисов отличается. Период – ноябрь, потому что декабрь для многих проектов является аномальным месяцем.

В результате мы получили для анализа данные 550 сайтов и вот что увидели.

Результаты

По данным Яндекс.Радар количество уникальных пользователей выше, чем значение в Google Analytics, для 29% сайтов. У SimilarWeb — для 27% сайтов. В целом можно сказать, что Яндекс.Радар и SimilarWeb чаще показывают значение ниже, чем в Google Analytics. Мы здесь специально не используем критерий «правильное» или «неправильное», потому что это зависит от того, с чем вы сравниваете.

Стандартное отклонение у SimilarWeb – 29%, у Яндекс.Радар – 31%. Причем у SimilarWeb оно меньше зависит от посещаемости проекта (в пределах 1-2%), тогда как у Яндекс.Радара – отклонение до 4%.

<br />

При этом и у SimilarWeb, и у Яндекс.Радар отклонение сильно зависит от ниши:

Погрешность 30%: насколько точны данные SimilarWeb и «Яндекс.Радара»

Можно предположить, что это связано с природой данных в обучающей выборке, которую сервисы использовали в своих моделях. Например, SimilarWeb активнее использует аддоны, а Яндекс.Радар – Яндекс.Метрику. Это объясняет меньшее отклонение для ecommerce проектов и большее для медийных.

Так что, если вы работаете в ecommerce проекте и вас лишили премии за то, что у конкурента посещаемость по данным Similarweb на 20% больше, то с вероятностью 45% это сделали несправедливо.

Что все это означает

Однозначно и SimilarWeb, и Яндекс.Радар служат ценным источником рыночных данных. Но использовать их надо, как и любой аналитический инструмент, с пониманием природы собранных данных и погрешности измерения, так как для многих расчетов и оценок, отклонение в 30% может оказаться критичным. Надеемся, что полученные результаты помогут вам повысить качество решений, которые вы принимаете на основе данных.

2626
17 комментариев

Из опыта взаимодействия с SimilarWeb могу отметить, что для не особо крупных сайтов (менее 50 000 уников в месяц) точность может быть катастрофически низкая - разница с реальной посещаемостью составляет иногда разы. Причём обычно SimilarWeb имеет склонность к завышению показателей.
При всём при том для некоторых проектов, даже небольших, точность может быть очень высокой.
Для себя сделал вывод, что по Симмлару можно ориентироваться только на порядок посещаемости и понять общую «крупность» проекта. Сколько-нибудь точные данные получить часто невозможно (вернее невозможно полагаться на их достоверность).
С Я.Радаром пока никакого опыта нет.

11

В коммерции, например, данные расходятся в разы.

И постоянно консалтеры на встречах бросаются цифрами из SimilarWeb: "Мы тут посмотрели "статистику" по вашему проекту и сравнили с конкурентами...". Это даже не смешно.

1

Погрешность SimilarWeb намного выше 25%, особенно если говорить о географических особенностях. Иногда в разы, иногда в десятки раз.

1

Не знаю как у вас, у меня практически на всех проектах (сайты от 10 и до 200k трафика) он показывается практически идентичные Analitics данные. Погрешность может быть процентов 5-7%, не больше. Такое ощущение. что он импортирует данные напрямую из Analitics.

1

Стесняюсь спросить, а что это за источник данных такой: "Analitics"?

доля пользователей браузера от яндекс порядка нуля. То есть это заведомо огромные погрешности - "Рейтинг формируется на основе данных Яндекс.Браузера"..

Еще и данные получаются смещённые в сторону сайтов яндекса (пользователи яндекс браузера априори лояльнее к сайтам яндекса).

1