Думай как Google: что мы узнали о поведении поискового бота Google спустя 6 млрд лог-строк

Технический директор JetOctopus Сергей Безбородов рассказывает, как сделать сайт более привлекательным для поискового бота, основываясь на результатах своего исследования по анализу логов длиной в один год и 300 млн проверенных страниц.

В прошлой статье я рассказывал о том, как в попытках увеличить трафик на своём сайте в 5 млн страниц я столкнулся с тем, что вместо качественной услуги глубокого SEO-анализа мне предлагали гадание на кофейной гуще. Тогда я сам разработал сервис для такого анализа и со своей партнёршей Юлией Нестерец построил SaaS-компанию JetOctopus.

Сейчас я хотел бы поделиться с вами общими положениями о поведении поисковых ботов, к которым мы пришли за это время. Я рассчитываю на то, что наши наблюдения как минимум помогут вам лучше понять, как работают веб-краулеры, ну а как максимум вы получите практические советы, которые помогут вам улучшить SEO вне зависимости от того, стали вы уже крупным сайтом или только растёте.

Узнать наверняка о том, какие страницы вашего сайта попадают в поисковую выдачу, а какие нет, можно только проверив весь сайт на индексацию. Однако если у вас 10 или 20 млн страниц, то проверить каждую из них может обойтись в круглую сумму, примерно равную стоимости паркетника KIA Sportage из салона.

Вместо этого мы обращаемся к анализу логов. Механика работы JetOctopus с клиентским сайтом такова: мы краулим сайт так, как делает это поисковой бот Google или «Яндекса», а затем анализируем логи сайта за последние шесть месяцев. В логах видно, заходил ли поисковой бот на сайт, если да, то на какие страницы, как давно и как часто.

Краулинг — это процесс, при котором поисковой бот (краулер) посещает ваш сайт, переходит по всем ссылкам и добавляет их в очередь на индексацию.
Он сравнивает список URL-страниц с теми, которые уже есть в индексе. Если нужно, обновляет их содержимое, добавляет новые и удаляет старые. Только после этого поисковик решает, попадают ли ваши страницы в индекс поисковой системы, а оттуда в выдачу результатов поиска.

Дальше всё просто — если бота не было на странице, то, скорее всего, её не будет в индексе. А вот если бот не просто был странице, а бывает по нескольку раз в день, то таким страницам нужно уделить максимум внимания.

В сумме эта информация даёт нам общую картину того, что мешает сайту органически расти и развиваться, и впервые не вслепую вносить технические изменения в страницы сайта и в его структуру.

Я много раз подчёркиваю, что мы работаем только с крупными сайтами, и тому есть одна причина: если на сайте меньше 50 тысяч страниц, то, скорее всего, рано или поздно поисковой бот посетит их все.

Но сайты от 100 тысяч страниц сталкиваются с тем, что веб-краулер ходит по страницам, о существовании которых владельцы сайта и не подозревают, и тратит ценный краулинговый бюджет на них. В то время как нужные и важные для индексирования страницы могут быть размещены неудобно для бота, и он о них никогда не узнает.

Краулинговый бюджет — это определённое количество ресурсов, которое Googlebot тратит на сканирование вашего сайта. Он необходим, чтобы приоритезировать, что и когда сканировать и сколько ресурсов для сканирования может выделить хостинг, размещающий ваш сайт.
Размер бюджета зависит от различных факторов: размера сайта, скорости генерации страниц, структурных факторов, объёма запросов, по которым ранжируется сайт, их частотности и других.

Поисковая система в целом не ставит целью скраулить полностью сайт, её цель — давать ответы на вопросы пользователей с минимальными для себя затратами.

Что индексировать, что не индексировать — не понятно <br />

За последний год мы просканировали 300 млн страниц и проанализировали 6 млрд лог-строк больших сайтов. Нашими клиентами были Auto.RIA, TemplateMonster, HeadHunter, Preply, Work.ua и другие. Исходя из этих данных, мы заметили тенденции в поведении бота: какого типа страницы он пропускает, а на какие любит заходить почаще, на что обращает внимание, а что не имеет никакого значения.

Вся информация, представленная ниже, — результат нашего собственного анализа и выводов, к которым мы пришли, а не перевод на русский язык статьи с Google Webmasters. Мы не даём рекомендаций, эффективность которых не доказана и не обоснована. Все выводы, к которым мы пришли за это время, для удобства подкреплены соответствующими графиками.

Так что же влияет на поведение бота? От чего зависит, пойдёт он на конкретную вашу страницу или нет? Мы для себя выделили несколько факторов.

DFI расшифровывается как distance from index, а именно как далеко ваша страница находится от главной страницы в кликах. Это один из самых важных параметров, влияющих на популярность страницы у краулер-бота.

Причём важно понять, что эта дальность измеряется не вложенностью каталогов, как например, https://site.com/shop/iphone/iphoneX.html. Она измеряется именно количеством кликов от главной страницы: https://site.com iPhones Catalog → https://site.com/shop/iphone iPhone X → https://site.com/shop/iphone/iphoneX.html.

Ниже на графике вы можете увидеть, как планомерно угасает интерес поисковика Google к странице с её удалённостью от главной за последний месяц и за шесть месяцев.

Данные основаны на анализе 6 млрд лог-строк, 300 млн краулиновых страниц <br />

Как мы видим, при удалённости от главной на пять или шесть кликов бот Google краулит уже только половину страниц, а чем дальше, тем процент страниц меньше. Значения этих графиков усреднённые для 18 млн страниц, проанализированных на момент построения графика, однако всё, конечно, зависит от ниши конкретного сайта.

Очевидно, что лучшей стратегией в этом случае было бы избегать DFI выше пяти, тщательнее прорабатывать структуру сайта, уделять отдельное внимание перелинковке и так далее.

Но правда в том, что с сайтами больше 100 тысяч страниц этого добиться сложно. Обычно это сайты, имеющие свою историю, в течение которой они меняли структуру, поэтому нельзя просто взять и убрать страницы с DFI 10, 20 или даже 30. Также не решит проблему и проставить по одной ссылке, ведущей на них.

Оптимальным способом борьбы с высоким DFI будет посмотреть на эти страницы и понять, насколько они важны и какую позицию имеет эта страница в выдаче.

Страницы с большим DFI, но хорошим местом в выдаче имеют больший потенциал, чем аналогичные страницы, которые занимают сотые места по запросам.

Чтобы поднять посещаемость потенциально интересных страниц, на них нужно поставить ссылки с соседних страниц. Одной-двумя тут не обойдёшься. На графике ниже видно, что в среднем перелинковка начинает работать от одиннадцати ссылок на страницу и выше.

Конечно, чем больше сайт, тем больше имеет значение количество ссылок, ведущих на конкретную страницу. Эти данные актуальны для сайтов от одного миллиона страниц и выше.

Если же вы обнаружили, что на важные страницы на вашем большом сайте ведёт меньше десяти ссылок, не спешите предпринимать срочные действия. Для начала проверьте, все ли из этих страниц качественные. И если да, добавляйте ссылки на них неспеша, небольшими итерациями, каждый раз проверяя через логи результат своих действий.

Это, пожалуй, самый известный аспект SEO-анализа. Разумеется, чем больше контента на вашем сайте, тем лучше. На графике видно, как критически падает значение Crawl Ratio на страницах, где меньше 500 слов.

По моему опыту, в половине случаев страницы с контентом до 500 слов — мусорные. У нас был случай, когда на клиентском сайте мы нашли 70 тысяч страниц, содержащих в себе только размер одежды, причём часть этих страниц была в индексе.

Поэтому в первую очередь проверьте, нужны ли вам страницы, за которые вы собираетесь бороться. Если да, то количество контента придётся добавить. Если же добавить нечего — смиритесь и оставьте всё как есть. Иногда это лучше, чем пытаться высосать текст из пальца.

Кроме этого, ощутимое влияние на Crawl Ratio имеют следующие факты.

В первую очередь это скорость загрузки страницы. Боту приходится ждать загрузку вашей страницы так же, как и обычному пользователю, и тратить на это свои ресурсы. Так что если в вашем сайте больше миллиона страниц, высока вероятность, что бот скорее загрузит пять страниц по одной секунде, чем одну страницу, которая будет загружаться пять секунд.

Это сугубо техническая задача, и нет единственного простого решения в стиле «взять сервер побольше». Но главный принцип — любую оптимизацию нужно начинать с профилирования, то есть понять, где узкие места, что именно тормозит, и потом уже предпринимать действия.

Ещё важно соотношение полезного контента и шаблона страницы. Часто сайты, содержащие, например, имена детей или клички для собак, состоят из страницы с длинными и сложными шаблонами, а вот количество полезного контента там немного: либо список, либо короткое описание одного из пунктов.

Много ли контента соберёшь про клички собак? «Тузик — это старинная русская кличка, пришедшая к нам от любителей карточных игр». На такие страницы боты не хотят использовать свои ресурсы.

Сохранять баланс. Заходить на страницы с большими сложными шаблонами, с большим количеством сторонних ссылок и практически полным отсутствием полезного контента не любят не только боты.

Orphan Pages — сиротские страницы с непростыми судьбами, о которых не знают поисковики. Лучше всего понять, что такое Orpgan Pages, помогут круги Эйлера на картинке ниже.

Вот нормальная ситуация для молодого сайта, который не успел пять раз поменять свою структуру: реальный объём сайта 900 тысяч страниц, 400 тысяч страниц из которых известны и вам, и поисковому боту Google, а 500 тысяч — ещё не известны. Закинув эти 500 тысяч страницы в индекс, вы гарантировано получите рост трафика.

Обратите внимание, что уже даже в этом случае есть небольшой кусочек страниц (синий сектор на рисунке), о которых вы не знаете и которых никогда не найдёте у себя на сайте, но о которых знает только Google. И там может быть что угодно. Например, результаты неудачного поиска пользователей.

Но большие сайты редко выглядят так аккуратно. В основном сайты с историей выглядят вот так.

Тут уже другая проблема: Google знает о вашем сайте больше, чем вы сами. Там могут быть удалённые страницы, страницы с JavaScript или AJAX, страницы неактуального редиректа или чёрт знает что ещё. У нас была ситуация, когда из-за программистской ошибки в карту сайта попал список из полумиллиона неработающих ссылок. Через три дня ошибку обнаружили и этот список оттуда убрали, но Googlebot продолжал ходить по этим битым ссылкам ещё полгода.

Зачастую краулинговый бюджет, о котором мы столько говорим, тратится не просто не самым эффективным образом — он расходуется на эти Orphan Pages.

Тут есть два пути. Первый, каноничный — навести порядок. Привести в порядок структуру сайта, сделать перелинковку, присоединить Orphan Pages ссылками к часто посещаемым страницам — поставить задачи программистам и ждать переиндексации.

Второй, оперативный — собрать список URL этих страниц, проверить, рабочие ли они, и если да, то сгенерировать из них карту сайта и отправить в Google и «Яндекс». Это сделать легко и быстро, но в индекс при этом попадёт только половина.

Алгоритмы и технологии поисковиков развиваются уже два десятилетия, и наивно было бы полагать, что даже такие простые вещи, как краулинг сайта, можно описать несколькими графиками.

Мы по каждой странице собираем более 200 различных параметров, и до конца года это количество удвоится. Если представить сайт в виде таблицы в 1 млн строк (страниц), умноженных на 200 столбцов (параметров), становится очевидно, что простых выборок тут уже будет недостаточно.

Мы пошли дальше и применили машинное обучение, чтобы найти влияние факторов на краулинг Googlebot в каждом конкретном случае.

Для одних сайтов значительную роль играет контент, для других большее влияние оказывает перелинковка.

Конечная цель этой задачи: из сложных комплексных данных давать простые ответы — что наиболее сильно для вашего сайта влияет на поведение бота, какие кластера страниц связаны между собой общими факторами, чтобы вести над ними работу комплексно, и так далее.

До того как я сам загрузил и проанализировал логи своих сайтов-агрегаторов вакансий HotWork, мне казалось неправдоподобной эта история про сиротские страницы, которые видят поисковики, но не видим мы. Но реальная ситуация оказалась ещё более невероятной, чем я мог предположить. Например, у нас на сайте по краулеру было 500 страниц с 301 редиректом, а «Яндекс» видел 700 тысяч таких страниц.

Технари не очень любят хранить логи, якобы это «нагружает диски», большие объёмы и так далее. Но объективно: на большинстве сайтов с посещаемостью до 10 млн в месяц запись логов прекрасно работает с настройками по умолчанию.

Касаемо объёмов — архивируйте и скидывайте их на Amazon S3-Glacier — за $1 в месяц можете хранить 250 Гб данных, хватит надолго. Для системного администратора настройка такой интеграции не сложнее, чем заварить кофе.

В будущем исторические логи могут очень помочь в анализе проблем, влияния очередных апдейтов Google.

Поэтому я настоятельно советую вам попробовать лог-анализ. Уверен, он вас удивит.

41 комментарий

Jevgenijs Metelovs

17.04.2019

Крутая статья, спасибо! Редко когда увидишь не просто советы в статье, а еще и анализ.

Ответить

Serge Bezborodov

Автор

спасибо!

Аккаунт удален

Комментарий недоступен

В принципе да, Александр, но "смотреть ежедневно" - это очень оптимистичный настрой. Там не так мало данных и не такой уж это приятный процесс. Поэтому, как правило, на вопрос клиентам "Вы логи собираете"? Ответ "Да". "А вы когда-нибудь в них заглядывали?" Ответ "Нет." Ну и первая цель хранения логов - это на случай, вдруг если что-то глобальное упадет. Мы же показываем, какую пользу можно брать на регулярной основе. Приятно, если мы вас этим заразили.

Андрей Дымов

Была бы ещё интересна статистика по роботам: кто чаще ходит, в какое время суток, корреляция между скоростью загрузки и количеством посещений. В общем, хочется взглянуть на цифры, но это уже, наверное, вне контекста статьи.

мы делали подобные выборки, там инфы еще на пару статей, у гугла например есть зависимость между ботами адвордса и основным гуглботом - добавили большую кампанию на кучу кеев - набежали боты адвордса, основной бот гугла ушел - если не анализировать в комплексе, то можно испугаться))
на яндекс не такая сильная зависимость в крулинге по глубине сайта, если например в целом по гуглу crawl ratio низкий, а по яндексу высокий - часто говорит по проблемах в структуре

Анна Іванова

Статья хороша реальными данными, спасибо! Особенно впечатлило машинное изучение краулинга Гуглбота. Однако данные на графике не совсем понятны. Какие же факторы больше всего влияют на краулинговый бюджет?

Думай как Google: что мы узнали о поведении поискового бота Google спустя 6 млрд лог-строк

Как понять, попадаешь ли ты в выдачу

Наблюдаем за поисковым ботом

DFI

Что делать

Перелинковка

Размер контента

Что делать

Дополнительные факторы

Время загрузки страницы

Что делать

Полезный контент или шаблон страницы

Что делать

Orphan Pages

Что делать

Следующий уровень