Погрешность 30%: насколько точны данные SimilarWeb и «Яндекс.Радара»
Самым быстрым и простым способом провести конкурентную разведку, оценить посещаемость интересующего сайта и увидеть из каких каналов он получает трафик, долгое время был SimilarWeb. С недавних пор к нему добавился еще и Яндекс.Радар. Но насколько точны данные, получаемые таким путем, и можно ли на них полагаться?
Компания OWOX провела исследование, сравнив точность данных SimilarWeb и Яндекс.Радар с данными Google Analytics на выборке из 550 сайтов. В среднем отклонение по количеству уникальных пользователей в обоих проектах – около 25%. У SimilarWeb отклонение больше зависит от посещаемости проекта, у Яндекс.Радар – от ниши. Более подробно рассказывает CEO OWOX Влад Флакс.
Для трезвой оценки рекламных кампаний нужны не только абсолютные результаты, но и возможность сравнить их с рынком. Например, маркетинг не выполнил план на 5% – это какой результат? Если рынок при этом вырос на 10% — то результат слабый, а если рынок просел на 10%, то хороший.
Источниками таких данных могут служить SimilarWeb и недавно запустившийся Яндекс.Радар. Сложность в том, что многие пользователи замечали, что в этих данных есть погрешность, но не знали, какая именно и насколько можно доверять полученным цифрам.
С одной стороны, такие сервисы и не должны давать точные данные — они служат для отслеживания трендов и независимого сравнения сайтов между собой. С другой стороны, мы заметили, что их показатели значительно отличаются от данных Google Analytics. Иногда в большую сторону, иногда в меньшую, и тренд из-за этого получался неправильным. Конечно, и данные в Google Analytics не абсолютно точные, но в целом мы считаем что они ближе к истинному значению, чем вычисленные косвенным путем.
Поэтому мы решили сравнить точность данных SimilarWeb и Яндекс.Радар с доступными нам в OWOX BI данными Google Analytics. Для сравнения использовались анонимные обезличенные данные 550 сайтов с посещаемостью более 100 тыс. уникальных пользователей в месяц.
Но для начала стоит понять, откуда эти сервисы берут данные.
Природа данных
С Google Analytics все просто – скрипт встроен в код вашего сайта и собирает данные о поведении пользователей. Эта статистика недоступна третьим лицам.
SimilarWeb использует несколько сотен источников, которые можно условно разделить на 4 группы:
- Глобальные панельные данные с сотен миллионов компьютеров и мобильных устройств. Это анонимная информация, которая не позволяет идентифицировать пользователя. Браузерные расширения и мобильные приложения собирают данные о том, какие сайты он посещает и как переходит с одного на другой.
- Глобальные данные интернет-провайдеров с миллионами подписчиков.
- Публичные источники данных с более чем миллиарда сайтов и приложений страниц.
- Прямые измерения данных с сотен тысяч сайтов и приложений
Яндекс.Радар выделяет 10 000 сайтов по наибольшему количеству посетителей из России. Рейтинг формируется на основе агрегированных обезличенных данных Яндекс.Браузера, Элементов Яндекса, Визуальных закладок, а также браузерных расширений и других продуктов Яндекса. По умолчанию данные аналитических сервисов Яндекса не учитываются.
Как считали погрешность
Чтобы определить, с какой погрешностью эти сервисы определяют посещаемость сайтов, мы сделали следующее:
- Взяли обезличенные данные сайтов с посещаемостью от 100 тыс. уникальных пользователей (сайты, к которым имеет доступ OWOX BI)
- Дополнили их данными о количестве уникальных пользователей из SimilarWeb и Яндекс.Радар за ноябрь 2018 года
- Отфильтровали сайты, для которых в Google Analytics были аномально низкие значения. (Например, если по данным Google Analytics количество пользователей было на порядок меньше, то, вероятнее всего, Google Analytics собирает неполные данные из-за фильтров в представлении).
При этом и у SimilarWeb, и у Яндекс.Радар отклонение сильно зависит от ниши:Для сравнения в качестве метрики мы выбрали уникальных пользователей, так как алгоритм формирования сессий у разных сервисов отличается. Период – ноябрь, потому что декабрь для многих проектов является аномальным месяцем.
В результате мы получили для анализа данные 550 сайтов и вот что увидели.
Результаты
По данным Яндекс.Радар количество уникальных пользователей выше, чем значение в Google Analytics, для 29% сайтов. У SimilarWeb — для 27% сайтов. В целом можно сказать, что Яндекс.Радар и SimilarWeb чаще показывают значение ниже, чем в Google Analytics. Мы здесь специально не используем критерий «правильное» или «неправильное», потому что это зависит от того, с чем вы сравниваете.
Стандартное отклонение у SimilarWeb – 29%, у Яндекс.Радар – 31%. Причем у SimilarWeb оно меньше зависит от посещаемости проекта (в пределах 1-2%), тогда как у Яндекс.Радара – отклонение до 4%.
При этом и у SimilarWeb, и у Яндекс.Радар отклонение сильно зависит от ниши:
Можно предположить, что это связано с природой данных в обучающей выборке, которую сервисы использовали в своих моделях. Например, SimilarWeb активнее использует аддоны, а Яндекс.Радар – Яндекс.Метрику. Это объясняет меньшее отклонение для ecommerce проектов и большее для медийных.
Так что, если вы работаете в ecommerce проекте и вас лишили премии за то, что у конкурента посещаемость по данным Similarweb на 20% больше, то с вероятностью 45% это сделали несправедливо.
Что все это означает
Однозначно и SimilarWeb, и Яндекс.Радар служат ценным источником рыночных данных. Но использовать их надо, как и любой аналитический инструмент, с пониманием природы собранных данных и погрешности измерения, так как для многих расчетов и оценок, отклонение в 30% может оказаться критичным. Надеемся, что полученные результаты помогут вам повысить качество решений, которые вы принимаете на основе данных.
Из опыта взаимодействия с SimilarWeb могу отметить, что для не особо крупных сайтов (менее 50 000 уников в месяц) точность может быть катастрофически низкая - разница с реальной посещаемостью составляет иногда разы. Причём обычно SimilarWeb имеет склонность к завышению показателей.
При всём при том для некоторых проектов, даже небольших, точность может быть очень высокой.
Для себя сделал вывод, что по Симмлару можно ориентироваться только на порядок посещаемости и понять общую «крупность» проекта. Сколько-нибудь точные данные получить часто невозможно (вернее невозможно полагаться на их достоверность).
С Я.Радаром пока никакого опыта нет.
В коммерции, например, данные расходятся в разы.
И постоянно консалтеры на встречах бросаются цифрами из SimilarWeb: "Мы тут посмотрели "статистику" по вашему проекту и сравнили с конкурентами...". Это даже не смешно.
Погрешность SimilarWeb намного выше 25%, особенно если говорить о географических особенностях. Иногда в разы, иногда в десятки раз.
Не знаю как у вас, у меня практически на всех проектах (сайты от 10 и до 200k трафика) он показывается практически идентичные Analitics данные. Погрешность может быть процентов 5-7%, не больше. Такое ощущение. что он импортирует данные напрямую из Analitics.
Стесняюсь спросить, а что это за источник данных такой: "Analitics"?
доля пользователей браузера от яндекс порядка нуля. То есть это заведомо огромные погрешности - "Рейтинг формируется на основе данных Яндекс.Браузера"..
Еще и данные получаются смещённые в сторону сайтов яндекса (пользователи яндекс браузера априори лояльнее к сайтам яндекса).
Модель, предсказывающая диапазон значений посещаемости, обучалась на выборке без сайтов Яндекса — их намеренно исключили, чтобы избежать предвзятости в расчётах.
так-то топ-2 браузер в рунете. например по ли.ру можно посмотреть.
Когда ничего нет, то и Симилар подойдет, обычно с реальностью он расходится не более чем на порядок. Тренд за полгода также в основном худо-бедно показывает корреляцию со счетчиками, особенно если нет декабря в промежутке
Симларвеб врет и сильно, проекты менее 10К вообще не видит
Я их смотрю через лайинтернет, если стоит, либо pr-cy там тоже привирает но в 50% дает более-менее верные данные
Проверил сайт lunda ru
Similarweb 420 тыс
Радар 164 тыс
Очень большой разброс
Если бы еще доступ к similarweb был помесячный. А то 20 000usd отдать за статистику только по одному сша- это жесть.
Еще заметил странность, что симилар лучше показывает данные о сайтах в рунете. Может наши провайдеры более охотно данные продают.
В радар можно отдать реальные метрики, для сайтов которые это сделали он априори будет точнее симуляра.
Отличный материал, спасибо!
https://peaceforyou.ru/yumor/bez-pampersov-ne-chitat-vyderzhki-iz-sochinenij-shkolnikov?fbclid=IwAR1ELIZ5Q1Z0q_D3_2autd2r6Nly32HQMf2LTn4MowkMPSBDuP8brFronhM