Массовое определение тематик сайтов для нужд SEO

Предлагаю вашему вниманию небольшой пост, по теме массового определения тематики сайтов.

Всем привет! Думаю, все кто более-менее плотно занимается сеошкой знаком с инструментом just-magic.org от Алексея Чекушина. В сервисе есть модуль «Тематический классификатор», который позволяет на основе SERP Яндекс определять тематику поисковых запросов и URL (страниц, не сайтов). Также недавно аналогичный функционал появился в digimetr.com от Александра Борминцева (правда только для запросов, без URL).

Процесс работы подобных классификаторов детально описан Алексеем Чекушиным в блоге и справке сервиса JustMagic, пересказывать матчасть не буду.

Игорь Бакалов
Занимаюсь SEO с 2010 года. Раньше вёл блог Bakalov.INFO и YouTube-канал, но потом забросил. Недавно завел Телеграмм-канал, подписывайтесь.

На днях у меня появилась идея протестировать, как можно использовать подобные сервисы для определения тематики сайтов. Но сперва, давайте определим кому, а главное зачем это может понадобиться. Как мне видится есть 3 задачи:

  • Линкбилдинг. У вас есть список из нескольких тысяч доноров (из бирж ссылок, от частных продавцов и т.д.) и вы хотите выбрать только близких по тематике с вашим сайтом.
  • Подбор дроп-доменов (моя основная сфера интересов в настоящее время). Еженедельно в RU зоне освобождается 20к+ доменов и среди них хочется найти те, что подходят вам по тематике (а также имеют хороший трафик и/или ссылочное).
  • Подготовка профилей под ПФ. Сам я таким не занимаюсь, но на сколько понимаю процесс - спецы нагуливают профили на сайтах нужной тематики.

Для начала обозначу чем мне не нравится идея определения тематики сайта по URL главной страницы:

  • На главной странице может быть недостаточно контента для корректного определения тематики.
  • В отдельных случаях анализатор может не получить контент сайта, если используется антибот-защита.
  • В случае работы с дроп-доменами, сайт уже не доступен, поэтому получить контент не получится.

Я предлагаю определять тематику сайта на основе сниппетов, по запросу вида [site:domain.ru]. Анализатор получает SERP по запросу, который состоит из 10 страниц сайта и на их основе определяет тематику.

Если с «обычными» ключами вы подаете запросы вида:

Ключевая фраза 1 Ключевая фраза 2 Ключевая фраза 3 …

То для определения тематики сайта, подаются запросы вида:

site:domain1.ru site:domain2.ru site:domain3.ru …

Нюанс. При подборе дроп-доменов я работаю с аукционами. Раньше не продленные домены достаточно быстро вылетали из индекса Яндекс, но последнее время ситуация поменялась и страницы могут спокойно висеть несколько недель не вылетая. Однако, если вы любитель поискать рег-фри домены, которые освободились Х месяцев/лет назад, то данный метод вам конечно не подойдет.

Итак, для теста я закинул пару десятков своих сайтов в DigiMetr, везде тематика определилась плюс-минус корректно. Можно было бы на этом остановиться, но проснулся азарт – стало интересно проверить качество классификации на более внушительных данных.

Дисклеймер: Выбор для анализа DigiMetr, а не JustMagic обусловлен лишь тем, что для работы в последнем необходимо было купить подписку, в то время как в первом оплата идет за фактически потраченные запросы.

Для дальнейшего анализа я взял старую базу сайтов из Яндекс.Каталога за 2014 год, всего 160 000 сайтов. Сделал выборку из базы:

  • Домен 2 уровня в зоне RU

  • Выкинул где домен был одновременно в 2х и более рубриках (да-да)
  • Выкинул поддомены и/или внутренние страницы (да, такое тоже было)

Осталось ~ 60 000 доменов.

***

При помощи A-Parser пробил WHOIS доменов, оставил только сайты с датой регистрации домена до конца 2013 года (чтобы снизить вероятность дропа домена и смены тематики).

Осталось ~37 000 доменов.

***

При помощи всё того же A-Parser пробил главные страниц и собрал теги , выкинул где данные не собрались, либо есть сообщение об ошибке, продаже домена и т.д.

Осталось ~23 000 доменов.

***

При помощи XMLProxy пробил выдачу на [site:domain.ru], выбрал только те домены, где есть 30+ страниц в поиске (мало страниц в поиске = плохо определится тематика, можно было выбрать 10+, но решил срезать косты на проверке).

Осталось ~19 000 доменов.

***

Закинул весь этот список доменов на проверку в https://digimetr.com/ru/topic-classify, получил результаты, начал смотреть.

Сайты в Яндекс.Каталог могли размещаться на разном уровне вложенности, как «в глубине»:

/Бизнес/Производство и поставки/Электроника и электротехника/Электротехника/Электростанции, генераторы, ИБП/

Так и на первом уровне:

/Универсальное/

Для начала я решил посмотреть на сколько точно DigiMetr определяет первый уровень тематики у сайтов. Разбил рубрики по слешам, выполнил сравнение. Получилось, что корректно определено для 14692 сайтов из 19233, т.е. 76%. Очень даже неплохо!

Массовое определение тематик сайтов для нужд SEO

Дальше начал смотреть второй уровень. Пришлось сперва немного сократить количество проверяемых сайтов – убрал те, где в Яндекс.Каталоге у сайта не было второго уровня, а в DigiMetr был. Например, в ЯК сайт был в «/Учёба/Универсальное/», а DigiMetr положил его просто в «/Учёба/». И наоборот, если в ЯК был второй уровень, а у DigiMetr только первый. Срезалось не очень сильно, с 19233 до 19042 сайтов, т.е. минус 1% где-то. По второму уровню точность ожидаемо снизилась, тематика совпала у 12136, т.е. 63% - всё еще не плохо.

Также посмотрел третий уровень. Аналогично убрал сайты, где в ЯК или в DigiMetr этот уровень отсутствовал, осталось 17433 сайтов. По третьему уровню тематика совпала у 8532 сайтов, т.е. 48%.

Несколько примеров, где «не совпало», но «горячо»:

*** /Авто/Продажа автомобилей/Японские авто/ /Авто/Автолюбители/Японские марки/ *** /Учёба/Среднее образование/Универсальное/ /Учёба/Среднее образование/Школы/ *** /Спорт/Летние виды спорта/Стрельба/ /Общество/Власть/Силовые структуры/Оружие/ *** /Hi-Tech/Сети и связь/Устройство сетей/ /Hi-Tech/Компьютеры/Серверы/

Несколько примеров, где «не совпало», и «холодно»:

/Учёба/Курсы/Компьютерные курсы/ /Бизнес/Деловые услуги/Юридические услуги/Адвокаты, нотариусы/ *** /Бизнес/Финансы/Банкротство/ /Бизнес/Производство и поставки/Энергетика/ *** /Спорт/Водный спорт/Дайвинг/ /Hi-Tech/Интернет/Хостинги/Бесплатные хостинги/ *** /Дом/Квартира и дача/Ландшафтный дизайн/ /Дом/Семья/Психология отношений/

Также возможно, что у меня и у DigiMetr немного отличались базы Яндекс.Каталога, т.к. есть вот такие ошибки, которые скорее всего вызваны тем, что менялась сама структура ЯК:

/Спорт/Экстремальный спорт/Роллерспорт, скейтбординг/ /Спорт/Экстремальный спорт/Роллерспорт и скейтбординг/ *** /Спорт/Соревнования/Автоспорт/Ралли/ /Спорт/Автоспорт/Ралли/ *** /Авто/Запчасти, аксессуары/Интернет-магазины/Шины и диски/ /Авто/Запчасти, аксессуары/Шины и диски/ *** /Спорт/Соревнования/Водный спорт/Яхты/ /Спорт/Водный спорт/Яхты/ *** /Отдых/Туризм/Пляжи и аквапарки/ /Отдых/Где развлечься/Пляжи и аквапарки/

Также хочу заметить, что расхождения в определении тематики – это не всегда ошибка DigiMetr, т.к. есть отдельные примеры и с Яндекс.Каталогом, например:

*** domsvadba.ru <title>Свадебные аксессуары, товары от производителя опт - Магазин Дом Свадьба</title> Яндекс.Каталог: /Бизнес/Производство и поставки/Предметы потребления/Прочее/ DigiMetr: /Дом/Семья/Свадьба/Свадебные платья/ *** bior-opt.ru <title>Интимные товары оптом для секшопа. Секс товары для вас!</title> Яндекс.Каталог: /Бизнес/Производство и поставки/Предметы потребления/Прочее/ DigiMetr: /Развлечения/Эротика/Секс-шопы/ ***

Всю базу с результатами проверки в паблик выкладывать не планирую, вот тут ознакомительный фрагмент по 300 строк на каждой вкладке.

Если вам был нужен инструмент для определения тематики сайтов (поиск дроп-доменов, ссылочных доноров на биржах / аутриче, нагул профилей под ПФ на сайтах определенной тематики), рекомендую попробовать данный метод, как по мне – качество выходит очень достойное.

Какой из анализаторов использовать, JustMagic или DigiMetr – на ваше усмотрение, не думаю, что качество будет заметно отличаться (но возможно в будущем сравню на одинаковых данных).

На этом всё. Подписывайтесь на мой Телеграмм-канал. Также загляните на мой YouTube – его давно не обновлял, но в планах есть несколько идей, так что тоже подпишитесь, чтобы ничего не пропустить.

1111
6 комментариев

Еженедельно в RU зоне освобождается 20к+ доменовЧисло удивило. Откуда информация?

Можете например на backorder.ru посмотреть

2

Вообще говоря, тематику сайта на уровне хоста разве что статистическими методами определять - там цифры достаточно условные. На 63% это, на 57 - то.
Но вообще тематику не оценивать - уже никак. Инструмент тестировать надо, лишним в арсенале не будет точно.

Важно понимать, что в данном случае такой % определения тематики получился за счёт того, что домены уже истекли и она определяется по сниппетам по запросу site:site.ru
А там в сниппетах могут быть тексты из разных страниц.
В целом же тематика по запросам и URL-ам определяется с точночтью больше 90% (в digimetr и just-magic). Просто в данном случае Игорь нашёл другой метод использования инструмента.

Замороченная схема конечно, но круто!