Сравнение сервисов для сбора данных с Google: XMLRiver и XMLstock

Поисковую выдачу используют SEO-специалисты и веб-мастера для мониторинга позиций, сбора данных для кластеризации семантического ядра и другой аналитики, чтобы применить собранные данные для построения стратегии продвижения сайта.

Если у Яндекса есть свой API, который называется Yandex.XML, где каждому владельцу сайта Яндекс даёт возможность получать данные выдачи, без санкций за автоматический сбор в виде капчи и бана ip, то у Google такого сервиса нет. А учитывая, что Google последнее время уверенно обгоняет Яндекс в рунете (по данным LiveInternet), то потребность очевидна.

Скриншот c LiveInternet, показывающий долю поисковых систем по сайтам, на которых установлен счётчик LI.

Первым сервисом на рынке предоставления данных выдачи Google через API появился XMLRiver.com , который работает уже давно (возможно около года), и только сейчас у него появился конкурент – XMLstock.com. Мы в студии сравнили оба сервиса и в этой статье распишем их преимущества и недостатки на предмет удобства использования, скорости работы, точности и полноты результатов выдачи. Поехали!

Оба сервиса предоставляют данные выдачи Google и Yandex, XMLRiver – данные прямой выдачи по обеим поисковым системам, XMLstock даёт собирать прямую выдачу только у Google, для Яндекса у него есть биржа XML лимитов. Однако в рамках этой статьи мы будем рассматривать исключительно интересующий нас сбор гугла.

Первым рассмотрим XMLRiver. В кабинете пользователя доступны такие настройки:

Выбор топа (от топ10 до топ100)
Настройки региональности
Устройство (desktop, mobile, tablet)
Дополнительные параметры выдачи

Данные настройки можно как указать в кабинете, так и передать с GET параметром в запросе.

Настройки выдачи XMLstock содержат:

Выбор топ (топ10-100)
Настройки региональности
Устройство (только desktop)

Настройки можно указать как в кабинете, так и передавать GET- параметром.

Здесь явное преимущество за XMLRiver за присутствие мобильной выдачи, показ нулевой позиции и других дополнительных параметров.

Оба сервиса предоставляют данные в формате, похожем на Yandex.XML, что удобно, т.к. большинство SEO инструментов уже работают с этим форматом и в любом из них можно добавить URL для запросов и собирать данные.

Плюсом для XMLRiver есть явная интеграция с программами KeyAssort, Key Collector (4 версия), TopSite, Majento PositionMeter и SerpParser.

В обоих сервисах она есть, и в обоих она достаточно быстрая, ответы мы получили менее чем за 20 минут. Тут паритет.

API у сервисов сделаны по образу и подобию XML.Yandex. Казалось бы, что тут расписывать? Однако этот пункт мы решили включить в статью, т.к. описание API у XMLRiver очень наглядно, мы не встречали ранее настолько наглядных примеров описания.

Скриншот блока ответов органической выдачи XMLRiver

К этому пункту мы подошли ответственно … с секундомером. Сервис XMLstock пишет об ограничении в 100 ежеминутных запросов, можно сделать ориентировочные выводы о скорости, а XMLRiver об эфемерных 10 потоках.

Что мы сделали - взяли скрипт для обращения к интерфейсу xml.yandex и поочерёдно запускали сбор на 1 минуту, выставив 20 потоков сбора для XMLstock и 10 потоков для XMLRiver (за большее кол-во надо договариваться с техподдержкой, мы не стали). У XMLstock нет ограничения на количество потоков, поэтому поставили больше. Сделали 3 замера, результаты в табличке:

Сравнение сервисов для сбора данных с Google: XMLRiver и XMLstock

Вывод: Скорость у сервисов на дефолтном аккаунте приблизительно равна. Подтверждается указанная сервисом XMLstock скорость сбора в 100 запросов в минуту. У XMLRiver она не так стабильна, видимо зависит от текущей нагрузки на сервис.

На написание данной статьи вдохновил Антон Шабан, который проверял точность выдачи XMLRiver, мы решили повторить эксперимент, но уже для двух сервисов и сравнить какой точнее. Как известно, точность выдачи – это самой важный аспект работы подобного сервиса, поэтому тут мы подошли ещё более скрупулёзно. Взяли 3 ip адреса: Россия (Москва), Украина (Киев) и США (New York). Взяли по 50 частотных коммерческих геозависимых запросов, связанных с продажей и услугой товаров (50 для России и Украины на русском языке, 50 для США на английском).

По этим запросам проверили топ10 живой выдачи (KeyCollector 3 с соответствующим IP), параллельно собирая выдачу с XMLRiver и XMLstock. Предварительно спросили у техподдержки XMLstock, какие правильные настройки должны быть.

На скриншоте ссылка от техподдержки XMLstock выглядит так, это правильные настройки для Москвы:

По другим регионам мы вывели настройки таким же образом.

Как работать с XMLRiver мы знали раньше и дополнительно убедились в правильности настроек из статьи Антона Шабана.

Данные получили по 3-м регионам, по каждому региону получили до 500 урлов («до» потому что на некоторых страницах у гугла уже давно не топ10, а иногда бывает и топ 6).

По этому региону мы проверили точные совпадения как URL страницы, так и позиции этой страницы

XMLRiver – несовпадение 41 из 500 URL . 92% урлов были на тех же местах, что и на прямой выдаче.
XMLStock – несовпадение 110 из 500 URL. 78% урлов были на тех же местах, что и на прямой выдаче.

По этому региону выдача значительно точнее у XMLRiver.

XMLRiver – несовпадение 144 из 500 URL . 71% урлов были на тех же местах, что и на прямой выдаче.

XMLStock – несовпадение 405 из 500 URL. 19% урлов были на тех же местах, что и на прямой выдаче.
Точность у XMLRiver тут значительно хуже, чем в предыдущем регионе, а у XMLstock вообще катастрофа.

Когда отмечали несовпадающие URL у этого региона, заметили что в большом количестве случаев 2 URL просто заменены местами. Поэтому тут мы решили проверить не только точные совпадения URL и позиции документа, а и совпадения страниц топа. Будут ли в топ 10 у сервисов ссылки на те же документы, что и на прямой выдаче.

XMLRiver – В прямой выдаче есть 11 URL, которых нет в данных, собранных с сервиса. Т.е. XMLRiver показал в топ10 97,8% урлов.

XMLStock – В прямой выдаче есть 55 URL, которых нет в данных, собранных с сервиса. Т.е. точность 89%.

XMLRiver – несовпадение 96 из 500 URL. 81% урлов были на тех же местах, что и на прямой выдаче.

XMLstock - несовпадение 313 из 500 URL. 37% урлов были на тех же местах, что и на прямой выдаче.

Сервис XMLRiver показал гораздо более точные результаты, которые коррелируют с исследованием Антона Шабана (ссылка выше). Мы получили точность 97,8%, Антон получил 96%. И только можем повторить, что с целью анализа конкурентов, группировки запросов, примерного анализа позиций и видимости сервис можно использовать.

А XMLstock откровенно расстроил, хотя и его данные по совпадению топа достаточны (89%), чтобы делать кластеризацию и другие операции, где высокая точность не требуется. Сводные данные приводим в таблице:

По совпадению топа мы посчитали только один (худший для обоих сервисов) регион. Если у кого-то будет желание, может посчитать и для двух других. Файлы с результатами.

Сравнение сервисов для сбора данных с Google: XMLRiver и XMLstock

Удобство использования

Настройки выдачи

Взаимодействие с софтом

Техподдержка

Документация для разработчиков

Скорость работы

Точность данных выдачи

Москва

Киев

Нью-Йорк

Вывод