Массовое определение тематик сайтов для нужд SEO
Всем привет! Думаю, все кто более-менее плотно занимается сеошкой знаком с инструментом just-magic.org от Алексея Чекушина. В сервисе есть модуль «Тематический классификатор», который позволяет на основе SERP Яндекс определять тематику поисковых запросов и URL (страниц, не сайтов). Также недавно аналогичный функционал появился в digimetr.com от Александра Борминцева (правда только для запросов, без URL).
На днях у меня появилась идея протестировать, как можно использовать подобные сервисы для определения тематики сайтов. Но сперва, давайте определим кому, а главное зачем это может понадобиться. Как мне видится есть 3 задачи:
- Линкбилдинг. У вас есть список из нескольких тысяч доноров (из бирж ссылок, от частных продавцов и т.д.) и вы хотите выбрать только близких по тематике с вашим сайтом.
- Подбор дроп-доменов (моя основная сфера интересов в настоящее время). Еженедельно в RU зоне освобождается 20к+ доменов и среди них хочется найти те, что подходят вам по тематике (а также имеют хороший трафик и/или ссылочное).
- Подготовка профилей под ПФ. Сам я таким не занимаюсь, но на сколько понимаю процесс - спецы нагуливают профили на сайтах нужной тематики.
Для начала обозначу чем мне не нравится идея определения тематики сайта по URL главной страницы:
- На главной странице может быть недостаточно контента для корректного определения тематики.
- В отдельных случаях анализатор может не получить контент сайта, если используется антибот-защита.
- В случае работы с дроп-доменами, сайт уже не доступен, поэтому получить контент не получится.
Если с «обычными» ключами вы подаете запросы вида:
То для определения тематики сайта, подаются запросы вида:
Итак, для теста я закинул пару десятков своих сайтов в DigiMetr, везде тематика определилась плюс-минус корректно. Можно было бы на этом остановиться, но проснулся азарт – стало интересно проверить качество классификации на более внушительных данных.
Для дальнейшего анализа я взял старую базу сайтов из Яндекс.Каталога за 2014 год, всего 160 000 сайтов. Сделал выборку из базы:
Домен 2 уровня в зоне RU
- Выкинул где домен был одновременно в 2х и более рубриках (да-да)
- Выкинул поддомены и/или внутренние страницы (да, такое тоже было)
Осталось ~ 60 000 доменов.
***
При помощи A-Parser пробил WHOIS доменов, оставил только сайты с датой регистрации домена до конца 2013 года (чтобы снизить вероятность дропа домена и смены тематики).
Осталось ~37 000 доменов.
***
При помощи всё того же A-Parser пробил главные страниц и собрал теги , выкинул где данные не собрались, либо есть сообщение об ошибке, продаже домена и т.д.
Осталось ~23 000 доменов.
***
При помощи XMLProxy пробил выдачу на [site:domain.ru], выбрал только те домены, где есть 30+ страниц в поиске (мало страниц в поиске = плохо определится тематика, можно было выбрать 10+, но решил срезать косты на проверке).
Осталось ~19 000 доменов.
***
Закинул весь этот список доменов на проверку в https://digimetr.com/ru/topic-classify, получил результаты, начал смотреть.
Сайты в Яндекс.Каталог могли размещаться на разном уровне вложенности, как «в глубине»:
Так и на первом уровне:
Для начала я решил посмотреть на сколько точно DigiMetr определяет первый уровень тематики у сайтов. Разбил рубрики по слешам, выполнил сравнение. Получилось, что корректно определено для 14692 сайтов из 19233, т.е. 76%. Очень даже неплохо!
Дальше начал смотреть второй уровень. Пришлось сперва немного сократить количество проверяемых сайтов – убрал те, где в Яндекс.Каталоге у сайта не было второго уровня, а в DigiMetr был. Например, в ЯК сайт был в «/Учёба/Универсальное/», а DigiMetr положил его просто в «/Учёба/». И наоборот, если в ЯК был второй уровень, а у DigiMetr только первый. Срезалось не очень сильно, с 19233 до 19042 сайтов, т.е. минус 1% где-то. По второму уровню точность ожидаемо снизилась, тематика совпала у 12136, т.е. 63% - всё еще не плохо.
Также посмотрел третий уровень. Аналогично убрал сайты, где в ЯК или в DigiMetr этот уровень отсутствовал, осталось 17433 сайтов. По третьему уровню тематика совпала у 8532 сайтов, т.е. 48%.
Несколько примеров, где «не совпало», но «горячо»:
Несколько примеров, где «не совпало», и «холодно»:
Также возможно, что у меня и у DigiMetr немного отличались базы Яндекс.Каталога, т.к. есть вот такие ошибки, которые скорее всего вызваны тем, что менялась сама структура ЯК:
Также хочу заметить, что расхождения в определении тематики – это не всегда ошибка DigiMetr, т.к. есть отдельные примеры и с Яндекс.Каталогом, например:
Если вам был нужен инструмент для определения тематики сайтов (поиск дроп-доменов, ссылочных доноров на биржах / аутриче, нагул профилей под ПФ на сайтах определенной тематики), рекомендую попробовать данный метод, как по мне – качество выходит очень достойное.
Какой из анализаторов использовать, JustMagic или DigiMetr – на ваше усмотрение, не думаю, что качество будет заметно отличаться (но возможно в будущем сравню на одинаковых данных).
На этом всё. Подписывайтесь на мой Телеграмм-канал. Также загляните на мой YouTube – его давно не обновлял, но в планах есть несколько идей, так что тоже подпишитесь, чтобы ничего не пропустить.
Число удивило. Откуда информация?
Можете например на backorder.ru посмотреть
Вообще говоря, тематику сайта на уровне хоста разве что статистическими методами определять - там цифры достаточно условные. На 63% это, на 57 - то.
Но вообще тематику не оценивать - уже никак. Инструмент тестировать надо, лишним в арсенале не будет точно.
Важно понимать, что в данном случае такой % определения тематики получился за счёт того, что домены уже истекли и она определяется по сниппетам по запросу site:site.ru
А там в сниппетах могут быть тексты из разных страниц.
В целом же тематика по запросам и URL-ам определяется с точночтью больше 90% (в digimetr и just-magic). Просто в данном случае Игорь нашёл другой метод использования инструмента.
Да, тут специфика применения. Я с дропами не работаю, больше с семантикой приходится возиться - а там пересечения по классификатору роль играют.
Комментарий удален модератором
Замороченная схема конечно, но круто!