Дальше начал смотреть второй уровень. Пришлось сперва немного сократить количество проверяемых сайтов – убрал те, где в Яндекс.Каталоге у сайта не было второго уровня, а в DigiMetr был. Например, в ЯК сайт был в «/Учёба/Универсальное/», а DigiMetr положил его просто в «/Учёба/». И наоборот, если в ЯК был второй уровень, а у DigiMetr только первый. Срезалось не очень сильно, с 19233 до 19042 сайтов, т.е. минус 1% где-то. По второму уровню точность ожидаемо снизилась, тематика совпала у 12136, т.е. 63% - всё еще не плохо.
Еженедельно в RU зоне освобождается 20к+ доменовЧисло удивило. Откуда информация?
Можете например на backorder.ru посмотреть
Вообще говоря, тематику сайта на уровне хоста разве что статистическими методами определять - там цифры достаточно условные. На 63% это, на 57 - то.
Но вообще тематику не оценивать - уже никак. Инструмент тестировать надо, лишним в арсенале не будет точно.
Важно понимать, что в данном случае такой % определения тематики получился за счёт того, что домены уже истекли и она определяется по сниппетам по запросу site:site.ru
А там в сниппетах могут быть тексты из разных страниц.
В целом же тематика по запросам и URL-ам определяется с точночтью больше 90% (в digimetr и just-magic). Просто в данном случае Игорь нашёл другой метод использования инструмента.
Замороченная схема конечно, но круто!