{"id":14284,"url":"\/distributions\/14284\/click?bit=1&hash=82a231c769d1e10ea56c30ae286f090fbb4a445600cfa9e05037db7a74b1dda9","title":"\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0444\u0438\u043d\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u043d\u0430 \u0442\u0430\u043d\u0446\u044b \u0441 \u0441\u043e\u0431\u0430\u043a\u0430\u043c\u0438","buttonText":"","imageUuid":""}

Массовое определение тематик сайтов для нужд SEO

Предлагаю вашему вниманию небольшой пост, по теме массового определения тематики сайтов.

Всем привет! Думаю, все кто более-менее плотно занимается сеошкой знаком с инструментом just-magic.org от Алексея Чекушина. В сервисе есть модуль «Тематический классификатор», который позволяет на основе SERP Яндекс определять тематику поисковых запросов и URL (страниц, не сайтов). Также недавно аналогичный функционал появился в digimetr.com от Александра Борминцева (правда только для запросов, без URL).

Процесс работы подобных классификаторов детально описан Алексеем Чекушиным в блоге и справке сервиса JustMagic, пересказывать матчасть не буду.

Игорь Бакалов
Занимаюсь SEO с 2010 года. Раньше вёл блог Bakalov.INFO и YouTube-канал, но потом забросил. Недавно завел Телеграмм-канал, подписывайтесь.

На днях у меня появилась идея протестировать, как можно использовать подобные сервисы для определения тематики сайтов. Но сперва, давайте определим кому, а главное зачем это может понадобиться. Как мне видится есть 3 задачи:

  • Линкбилдинг. У вас есть список из нескольких тысяч доноров (из бирж ссылок, от частных продавцов и т.д.) и вы хотите выбрать только близких по тематике с вашим сайтом.
  • Подбор дроп-доменов (моя основная сфера интересов в настоящее время). Еженедельно в RU зоне освобождается 20к+ доменов и среди них хочется найти те, что подходят вам по тематике (а также имеют хороший трафик и/или ссылочное).
  • Подготовка профилей под ПФ. Сам я таким не занимаюсь, но на сколько понимаю процесс - спецы нагуливают профили на сайтах нужной тематики.

Для начала обозначу чем мне не нравится идея определения тематики сайта по URL главной страницы:

  • На главной странице может быть недостаточно контента для корректного определения тематики.
  • В отдельных случаях анализатор может не получить контент сайта, если используется антибот-защита.
  • В случае работы с дроп-доменами, сайт уже не доступен, поэтому получить контент не получится.

Я предлагаю определять тематику сайта на основе сниппетов, по запросу вида [site:domain.ru]. Анализатор получает SERP по запросу, который состоит из 10 страниц сайта и на их основе определяет тематику.

Если с «обычными» ключами вы подаете запросы вида:

Ключевая фраза 1 Ключевая фраза 2 Ключевая фраза 3 …

То для определения тематики сайта, подаются запросы вида:

site:domain1.ru site:domain2.ru site:domain3.ru …

Нюанс. При подборе дроп-доменов я работаю с аукционами. Раньше не продленные домены достаточно быстро вылетали из индекса Яндекс, но последнее время ситуация поменялась и страницы могут спокойно висеть несколько недель не вылетая. Однако, если вы любитель поискать рег-фри домены, которые освободились Х месяцев/лет назад, то данный метод вам конечно не подойдет.

Итак, для теста я закинул пару десятков своих сайтов в DigiMetr, везде тематика определилась плюс-минус корректно. Можно было бы на этом остановиться, но проснулся азарт – стало интересно проверить качество классификации на более внушительных данных.

Дисклеймер: Выбор для анализа DigiMetr, а не JustMagic обусловлен лишь тем, что для работы в последнем необходимо было купить подписку, в то время как в первом оплата идет за фактически потраченные запросы.

Для дальнейшего анализа я взял старую базу сайтов из Яндекс.Каталога за 2014 год, всего 160 000 сайтов. Сделал выборку из базы:

  • Домен 2 уровня в зоне RU

  • Выкинул где домен был одновременно в 2х и более рубриках (да-да)
  • Выкинул поддомены и/или внутренние страницы (да, такое тоже было)

Осталось ~ 60 000 доменов.

***

При помощи A-Parser пробил WHOIS доменов, оставил только сайты с датой регистрации домена до конца 2013 года (чтобы снизить вероятность дропа домена и смены тематики).

Осталось ~37 000 доменов.

***

При помощи всё того же A-Parser пробил главные страниц и собрал теги , выкинул где данные не собрались, либо есть сообщение об ошибке, продаже домена и т.д.

Осталось ~23 000 доменов.

***

При помощи XMLProxy пробил выдачу на [site:domain.ru], выбрал только те домены, где есть 30+ страниц в поиске (мало страниц в поиске = плохо определится тематика, можно было выбрать 10+, но решил срезать косты на проверке).

Осталось ~19 000 доменов.

***

Закинул весь этот список доменов на проверку в https://digimetr.com/ru/topic-classify, получил результаты, начал смотреть.

Сайты в Яндекс.Каталог могли размещаться на разном уровне вложенности, как «в глубине»:

/Бизнес/Производство и поставки/Электроника и электротехника/Электротехника/Электростанции, генераторы, ИБП/

Так и на первом уровне:

/Универсальное/

Для начала я решил посмотреть на сколько точно DigiMetr определяет первый уровень тематики у сайтов. Разбил рубрики по слешам, выполнил сравнение. Получилось, что корректно определено для 14692 сайтов из 19233, т.е. 76%. Очень даже неплохо!

Дальше начал смотреть второй уровень. Пришлось сперва немного сократить количество проверяемых сайтов – убрал те, где в Яндекс.Каталоге у сайта не было второго уровня, а в DigiMetr был. Например, в ЯК сайт был в «/Учёба/Универсальное/», а DigiMetr положил его просто в «/Учёба/». И наоборот, если в ЯК был второй уровень, а у DigiMetr только первый. Срезалось не очень сильно, с 19233 до 19042 сайтов, т.е. минус 1% где-то. По второму уровню точность ожидаемо снизилась, тематика совпала у 12136, т.е. 63% - всё еще не плохо.

Также посмотрел третий уровень. Аналогично убрал сайты, где в ЯК или в DigiMetr этот уровень отсутствовал, осталось 17433 сайтов. По третьему уровню тематика совпала у 8532 сайтов, т.е. 48%.

Несколько примеров, где «не совпало», но «горячо»:

*** /Авто/Продажа автомобилей/Японские авто/ /Авто/Автолюбители/Японские марки/ *** /Учёба/Среднее образование/Универсальное/ /Учёба/Среднее образование/Школы/ *** /Спорт/Летние виды спорта/Стрельба/ /Общество/Власть/Силовые структуры/Оружие/ *** /Hi-Tech/Сети и связь/Устройство сетей/ /Hi-Tech/Компьютеры/Серверы/

Несколько примеров, где «не совпало», и «холодно»:

/Учёба/Курсы/Компьютерные курсы/ /Бизнес/Деловые услуги/Юридические услуги/Адвокаты, нотариусы/ *** /Бизнес/Финансы/Банкротство/ /Бизнес/Производство и поставки/Энергетика/ *** /Спорт/Водный спорт/Дайвинг/ /Hi-Tech/Интернет/Хостинги/Бесплатные хостинги/ *** /Дом/Квартира и дача/Ландшафтный дизайн/ /Дом/Семья/Психология отношений/

Также возможно, что у меня и у DigiMetr немного отличались базы Яндекс.Каталога, т.к. есть вот такие ошибки, которые скорее всего вызваны тем, что менялась сама структура ЯК:

/Спорт/Экстремальный спорт/Роллерспорт, скейтбординг/ /Спорт/Экстремальный спорт/Роллерспорт и скейтбординг/ *** /Спорт/Соревнования/Автоспорт/Ралли/ /Спорт/Автоспорт/Ралли/ *** /Авто/Запчасти, аксессуары/Интернет-магазины/Шины и диски/ /Авто/Запчасти, аксессуары/Шины и диски/ *** /Спорт/Соревнования/Водный спорт/Яхты/ /Спорт/Водный спорт/Яхты/ *** /Отдых/Туризм/Пляжи и аквапарки/ /Отдых/Где развлечься/Пляжи и аквапарки/

Также хочу заметить, что расхождения в определении тематики – это не всегда ошибка DigiMetr, т.к. есть отдельные примеры и с Яндекс.Каталогом, например:

*** domsvadba.ru <title>Свадебные аксессуары, товары от производителя опт - Магазин Дом Свадьба</title> Яндекс.Каталог: /Бизнес/Производство и поставки/Предметы потребления/Прочее/ DigiMetr: /Дом/Семья/Свадьба/Свадебные платья/ *** bior-opt.ru <title>Интимные товары оптом для секшопа. Секс товары для вас!</title> Яндекс.Каталог: /Бизнес/Производство и поставки/Предметы потребления/Прочее/ DigiMetr: /Развлечения/Эротика/Секс-шопы/ ***

Всю базу с результатами проверки в паблик выкладывать не планирую, вот тут ознакомительный фрагмент по 300 строк на каждой вкладке.

Если вам был нужен инструмент для определения тематики сайтов (поиск дроп-доменов, ссылочных доноров на биржах / аутриче, нагул профилей под ПФ на сайтах определенной тематики), рекомендую попробовать данный метод, как по мне – качество выходит очень достойное.

Какой из анализаторов использовать, JustMagic или DigiMetr – на ваше усмотрение, не думаю, что качество будет заметно отличаться (но возможно в будущем сравню на одинаковых данных).

На этом всё. Подписывайтесь на мой Телеграмм-канал. Также загляните на мой YouTube – его давно не обновлял, но в планах есть несколько идей, так что тоже подпишитесь, чтобы ничего не пропустить.

0
6 комментариев
Написать комментарий...
Чайка О.
Еженедельно в RU зоне освобождается 20к+ доменов

Число удивило. Откуда информация?

Ответить
Развернуть ветку
Игорь Бакалов
Автор

Можете например на backorder.ru посмотреть

Ответить
Развернуть ветку
Виктор Петров

Вообще говоря, тематику сайта на уровне хоста разве что статистическими методами определять - там цифры достаточно условные. На 63% это, на 57 - то.
Но вообще тематику не оценивать - уже никак. Инструмент тестировать надо, лишним в арсенале не будет точно.

Ответить
Развернуть ветку
Борминцев Александр

Важно понимать, что в данном случае такой % определения тематики получился за счёт того, что домены уже истекли и она определяется по сниппетам по запросу site:site.ru
А там в сниппетах могут быть тексты из разных страниц.
В целом же тематика по запросам и URL-ам определяется с точночтью больше 90% (в digimetr и just-magic). Просто в данном случае Игорь нашёл другой метод использования инструмента.

Ответить
Развернуть ветку
Виктор Петров

Да, тут специфика применения. Я с дропами не работаю, больше с семантикой приходится возиться - а там пересечения по классификатору роль играют.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Илья Шумилов

Замороченная схема конечно, но круто!

Ответить
Развернуть ветку
3 комментария
Раскрывать всегда