Думай как Google: что мы узнали о поведении поискового бота Google спустя 6 млрд лог-строк
Технический директор JetOctopus Сергей Безбородов рассказывает, как сделать сайт более привлекательным для поискового бота, основываясь на результатах своего исследования по анализу логов длиной в один год и 300 млн проверенных страниц.
В прошлой статье я рассказывал о том, как в попытках увеличить трафик на своём сайте в 5 млн страниц я столкнулся с тем, что вместо качественной услуги глубокого SEO-анализа мне предлагали гадание на кофейной гуще. Тогда я сам разработал сервис для такого анализа и со своей партнёршей Юлией Нестерец построил SaaS-компанию JetOctopus.
Сейчас я хотел бы поделиться с вами общими положениями о поведении поисковых ботов, к которым мы пришли за это время. Я рассчитываю на то, что наши наблюдения как минимум помогут вам лучше понять, как работают веб-краулеры, ну а как максимум вы получите практические советы, которые помогут вам улучшить SEO вне зависимости от того, стали вы уже крупным сайтом или только растёте.
Как понять, попадаешь ли ты в выдачу
Узнать наверняка о том, какие страницы вашего сайта попадают в поисковую выдачу, а какие нет, можно только проверив весь сайт на индексацию. Однако если у вас 10 или 20 млн страниц, то проверить каждую из них может обойтись в круглую сумму, примерно равную стоимости паркетника KIA Sportage из салона.
Вместо этого мы обращаемся к анализу логов. Механика работы JetOctopus с клиентским сайтом такова: мы краулим сайт так, как делает это поисковой бот Google или «Яндекса», а затем анализируем логи сайта за последние шесть месяцев. В логах видно, заходил ли поисковой бот на сайт, если да, то на какие страницы, как давно и как часто.
Дальше всё просто — если бота не было на странице, то, скорее всего, её не будет в индексе. А вот если бот не просто был странице, а бывает по нескольку раз в день, то таким страницам нужно уделить максимум внимания.
В сумме эта информация даёт нам общую картину того, что мешает сайту органически расти и развиваться, и впервые не вслепую вносить технические изменения в страницы сайта и в его структуру.
Я много раз подчёркиваю, что мы работаем только с крупными сайтами, и тому есть одна причина: если на сайте меньше 50 тысяч страниц, то, скорее всего, рано или поздно поисковой бот посетит их все.
Но сайты от 100 тысяч страниц сталкиваются с тем, что веб-краулер ходит по страницам, о существовании которых владельцы сайта и не подозревают, и тратит ценный краулинговый бюджет на них. В то время как нужные и важные для индексирования страницы могут быть размещены неудобно для бота, и он о них никогда не узнает.
Поисковая система в целом не ставит целью скраулить полностью сайт, её цель — давать ответы на вопросы пользователей с минимальными для себя затратами.
Наблюдаем за поисковым ботом
За последний год мы просканировали 300 млн страниц и проанализировали 6 млрд лог-строк больших сайтов. Нашими клиентами были Auto.RIA, TemplateMonster, HeadHunter, Preply, Work.ua и другие. Исходя из этих данных, мы заметили тенденции в поведении бота: какого типа страницы он пропускает, а на какие любит заходить почаще, на что обращает внимание, а что не имеет никакого значения.
Вся информация, представленная ниже, — результат нашего собственного анализа и выводов, к которым мы пришли, а не перевод на русский язык статьи с Google Webmasters. Мы не даём рекомендаций, эффективность которых не доказана и не обоснована. Все выводы, к которым мы пришли за это время, для удобства подкреплены соответствующими графиками.
Так что же влияет на поведение бота? От чего зависит, пойдёт он на конкретную вашу страницу или нет? Мы для себя выделили несколько факторов.
DFI
DFI расшифровывается как distance from index, а именно как далеко ваша страница находится от главной страницы в кликах. Это один из самых важных параметров, влияющих на популярность страницы у краулер-бота.
Причём важно понять, что эта дальность измеряется не вложенностью каталогов, как например, https://site.com/shop/iphone/iphoneX.html. Она измеряется именно количеством кликов от главной страницы: https://site.com iPhones Catalog → https://site.com/shop/iphone iPhone X → https://site.com/shop/iphone/iphoneX.html.
Ниже на графике вы можете увидеть, как планомерно угасает интерес поисковика Google к странице с её удалённостью от главной за последний месяц и за шесть месяцев.
Как мы видим, при удалённости от главной на пять или шесть кликов бот Google краулит уже только половину страниц, а чем дальше, тем процент страниц меньше. Значения этих графиков усреднённые для 18 млн страниц, проанализированных на момент построения графика, однако всё, конечно, зависит от ниши конкретного сайта.
Что делать
Очевидно, что лучшей стратегией в этом случае было бы избегать DFI выше пяти, тщательнее прорабатывать структуру сайта, уделять отдельное внимание перелинковке и так далее.
Но правда в том, что с сайтами больше 100 тысяч страниц этого добиться сложно. Обычно это сайты, имеющие свою историю, в течение которой они меняли структуру, поэтому нельзя просто взять и убрать страницы с DFI 10, 20 или даже 30. Также не решит проблему и проставить по одной ссылке, ведущей на них.
Оптимальным способом борьбы с высоким DFI будет посмотреть на эти страницы и понять, насколько они важны и какую позицию имеет эта страница в выдаче.
Страницы с большим DFI, но хорошим местом в выдаче имеют больший потенциал, чем аналогичные страницы, которые занимают сотые места по запросам.
Чтобы поднять посещаемость потенциально интересных страниц, на них нужно поставить ссылки с соседних страниц. Одной-двумя тут не обойдёшься. На графике ниже видно, что в среднем перелинковка начинает работать от одиннадцати ссылок на страницу и выше.
Перелинковка
Конечно, чем больше сайт, тем больше имеет значение количество ссылок, ведущих на конкретную страницу. Эти данные актуальны для сайтов от одного миллиона страниц и выше.
Если же вы обнаружили, что на важные страницы на вашем большом сайте ведёт меньше десяти ссылок, не спешите предпринимать срочные действия. Для начала проверьте, все ли из этих страниц качественные. И если да, добавляйте ссылки на них неспеша, небольшими итерациями, каждый раз проверяя через логи результат своих действий.
Размер контента
Это, пожалуй, самый известный аспект SEO-анализа. Разумеется, чем больше контента на вашем сайте, тем лучше. На графике видно, как критически падает значение Crawl Ratio на страницах, где меньше 500 слов.
Что делать
По моему опыту, в половине случаев страницы с контентом до 500 слов — мусорные. У нас был случай, когда на клиентском сайте мы нашли 70 тысяч страниц, содержащих в себе только размер одежды, причём часть этих страниц была в индексе.
Поэтому в первую очередь проверьте, нужны ли вам страницы, за которые вы собираетесь бороться. Если да, то количество контента придётся добавить. Если же добавить нечего — смиритесь и оставьте всё как есть. Иногда это лучше, чем пытаться высосать текст из пальца.
Дополнительные факторы
Кроме этого, ощутимое влияние на Crawl Ratio имеют следующие факты.
Время загрузки страницы
В первую очередь это скорость загрузки страницы. Боту приходится ждать загрузку вашей страницы так же, как и обычному пользователю, и тратить на это свои ресурсы. Так что если в вашем сайте больше миллиона страниц, высока вероятность, что бот скорее загрузит пять страниц по одной секунде, чем одну страницу, которая будет загружаться пять секунд.
Что делать
Это сугубо техническая задача, и нет единственного простого решения в стиле «взять сервер побольше». Но главный принцип — любую оптимизацию нужно начинать с профилирования, то есть понять, где узкие места, что именно тормозит, и потом уже предпринимать действия.
Полезный контент или шаблон страницы
Ещё важно соотношение полезного контента и шаблона страницы. Часто сайты, содержащие, например, имена детей или клички для собак, состоят из страницы с длинными и сложными шаблонами, а вот количество полезного контента там немного: либо список, либо короткое описание одного из пунктов.
Много ли контента соберёшь про клички собак? «Тузик — это старинная русская кличка, пришедшая к нам от любителей карточных игр». На такие страницы боты не хотят использовать свои ресурсы.
Что делать
Сохранять баланс. Заходить на страницы с большими сложными шаблонами, с большим количеством сторонних ссылок и практически полным отсутствием полезного контента не любят не только боты.
Orphan Pages
Orphan Pages — сиротские страницы с непростыми судьбами, о которых не знают поисковики. Лучше всего понять, что такое Orpgan Pages, помогут круги Эйлера на картинке ниже.
Вот нормальная ситуация для молодого сайта, который не успел пять раз поменять свою структуру: реальный объём сайта 900 тысяч страниц, 400 тысяч страниц из которых известны и вам, и поисковому боту Google, а 500 тысяч — ещё не известны. Закинув эти 500 тысяч страницы в индекс, вы гарантировано получите рост трафика.
Обратите внимание, что уже даже в этом случае есть небольшой кусочек страниц (синий сектор на рисунке), о которых вы не знаете и которых никогда не найдёте у себя на сайте, но о которых знает только Google. И там может быть что угодно. Например, результаты неудачного поиска пользователей.
Но большие сайты редко выглядят так аккуратно. В основном сайты с историей выглядят вот так.
Тут уже другая проблема: Google знает о вашем сайте больше, чем вы сами. Там могут быть удалённые страницы, страницы с JavaScript или AJAX, страницы неактуального редиректа или чёрт знает что ещё. У нас была ситуация, когда из-за программистской ошибки в карту сайта попал список из полумиллиона неработающих ссылок. Через три дня ошибку обнаружили и этот список оттуда убрали, но Googlebot продолжал ходить по этим битым ссылкам ещё полгода.
Зачастую краулинговый бюджет, о котором мы столько говорим, тратится не просто не самым эффективным образом — он расходуется на эти Orphan Pages.
Что делать
Тут есть два пути. Первый, каноничный — навести порядок. Привести в порядок структуру сайта, сделать перелинковку, присоединить Orphan Pages ссылками к часто посещаемым страницам — поставить задачи программистам и ждать переиндексации.
Второй, оперативный — собрать список URL этих страниц, проверить, рабочие ли они, и если да, то сгенерировать из них карту сайта и отправить в Google и «Яндекс». Это сделать легко и быстро, но в индекс при этом попадёт только половина.
Следующий уровень
Алгоритмы и технологии поисковиков развиваются уже два десятилетия, и наивно было бы полагать, что даже такие простые вещи, как краулинг сайта, можно описать несколькими графиками.
Мы по каждой странице собираем более 200 различных параметров, и до конца года это количество удвоится. Если представить сайт в виде таблицы в 1 млн строк (страниц), умноженных на 200 столбцов (параметров), становится очевидно, что простых выборок тут уже будет недостаточно.
Мы пошли дальше и применили машинное обучение, чтобы найти влияние факторов на краулинг Googlebot в каждом конкретном случае.
Для одних сайтов значительную роль играет контент, для других большее влияние оказывает перелинковка.
Конечная цель этой задачи: из сложных комплексных данных давать простые ответы — что наиболее сильно для вашего сайта влияет на поведение бота, какие кластера страниц связаны между собой общими факторами, чтобы вести над ними работу комплексно, и так далее.
До того как я сам загрузил и проанализировал логи своих сайтов-агрегаторов вакансий HotWork, мне казалось неправдоподобной эта история про сиротские страницы, которые видят поисковики, но не видим мы. Но реальная ситуация оказалась ещё более невероятной, чем я мог предположить. Например, у нас на сайте по краулеру было 500 страниц с 301 редиректом, а «Яндекс» видел 700 тысяч таких страниц.
Технари не очень любят хранить логи, якобы это «нагружает диски», большие объёмы и так далее. Но объективно: на большинстве сайтов с посещаемостью до 10 млн в месяц запись логов прекрасно работает с настройками по умолчанию.
Касаемо объёмов — архивируйте и скидывайте их на Amazon S3-Glacier — за $1 в месяц можете хранить 250 Гб данных, хватит надолго. Для системного администратора настройка такой интеграции не сложнее, чем заварить кофе.
В будущем исторические логи могут очень помочь в анализе проблем, влияния очередных апдейтов Google.
Поэтому я настоятельно советую вам попробовать лог-анализ. Уверен, он вас удивит.
Крутая статья, спасибо! Редко когда увидишь не просто советы в статье, а еще и анализ.
спасибо!
Комментарий недоступен
В принципе да, Александр, но "смотреть ежедневно" - это очень оптимистичный настрой. Там не так мало данных и не такой уж это приятный процесс. Поэтому, как правило, на вопрос клиентам "Вы логи собираете"? Ответ "Да". "А вы когда-нибудь в них заглядывали?" Ответ "Нет." Ну и первая цель хранения логов - это на случай, вдруг если что-то глобальное упадет. Мы же показываем, какую пользу можно брать на регулярной основе. Приятно, если мы вас этим заразили.
Комментарий недоступен
Через сервисы google cloud можно организовать автоматический сбор/обработку/анализ/хранение данных, если есть четкие критерии по параметрам и классификации.
Была бы ещё интересна статистика по роботам: кто чаще ходит, в какое время суток, корреляция между скоростью загрузки и количеством посещений. В общем, хочется взглянуть на цифры, но это уже, наверное, вне контекста статьи.
мы делали подобные выборки, там инфы еще на пару статей, у гугла например есть зависимость между ботами адвордса и основным гуглботом - добавили большую кампанию на кучу кеев - набежали боты адвордса, основной бот гугла ушел - если не анализировать в комплексе, то можно испугаться))
на яндекс не такая сильная зависимость в крулинге по глубине сайта, если например в целом по гуглу crawl ratio низкий, а по яндексу высокий - часто говорит по проблемах в структуре
Ждем пары статей, очень интересно!
Статья хороша реальными данными, спасибо! Особенно впечатлило машинное изучение краулинга Гуглбота. Однако данные на графике не совсем понятны. Какие же факторы больше всего влияют на краулинговый бюджет?
самый главный фактор - это насколько частотны запросы по которым ранжируется страница, потом идет вложенность по кликам, перелинковка
в целом на краулинговый бюджет влияет тематика сайта, размер и общий трафик
Подскажите способ проанализировать перелинковку на сайте. Я пытаюсь оптимизировать сайт под SILO архитектуру, глазами просмотриваю ссылки на каждой странице, но на 100-том УРЛе задолбалась. Буду благодарна за совет: как просканировать все ссылки одним махом?
для небольших сайтов возьмите любой десктоп краулер, мне нравится sitebulb или нетпик - там скраулите и увидите картину по перелинковке
Комментарий удален модератором
т.е. поисковики тратят миллиардные бюджеты, двадцать лет разрабюатывают технологии, машин лернинги, ренк брейны и тут мы просто берем два сайта и "перемножаем" что-то на что-то и profit!
у Вас наверное много сайтов и куча трафика есть
Комментарий удален модератором
"Однако если у вас 10 или 20 млн страниц, то проверить каждую из них может обойтись в круглую сумму, примерно равную стоимости паркетника KIA Sportage из салона."
Автор, пожалуйста, раскройте экономику процесса проверки индексации за паркетник. Кажется, я прогадал с выбором автомобиля.
наймите программиста, который напишет необходимые для обработки данных программы и подгрузит их в гугл, а статья через чур из огорода все объясняет, согласен 90%, что написана для несведущих с целью рекламы платных программ в комментариях
Мне как владельцу двух сайтов, бы было интересно посмотреть на статистику роботов, желательно с цифрами. Сейчас поисковики изменяют правила почти каждый день, тяжело сеошникам.
И каким образом набивать сайт символами, если это, например, интерне-магазин. Здесь же будут обычные категории, айтемы и не более + все похожие по структуре. Или здесь другой СЕО-подход?
мало знать какие страницы обошел робот, надо еще знать по как оптимизировать sitemap для ранее криворуко добавленного сайта в индекс гугла и что сделать с самим сайтом
О таком векторе анализа данных я еще не слышал. Знаю в основном про Anatilycs, Search Console. То что можно вытащить данные о поведении бота на твоем сайте, вообще впервые слышу. Мега ценная статья. Надо разбираться.
Можете посоветовать бесплатный анализатор логов сайта с визуализацией по ошибкам, сканам страниц и прочее. Сайт не большой до 2000 страниц.
бесплатных не знаю, платные есть достаточно много - как sitebulb, netpeak spider и ну и скримин фрог
Недавно свой сайт подгонял, всякий мусор с него так сказать удалял, некоторые страницы совершенно подругому оформил, текст другой сделал, и знаете - больше посещений реально стало)
Мне бы было очень интересно посмотреть на статистику по роботам, кто по каким страницам чаще всего заходит, приведенные цифры могли быть полезней чем статья. А так данный материал лишним не будет.
Сбором статистики с логов посещений актуальный способ, который дает многое понять и проанализировать. К сожалению, мало кто так делает. Статься интересная, побольше бы таких
Serge Bezborodov, скажите, пожалуйста,
А есть ли данные о том, какое оптимальное количество внутренних ссылок на одной странице наиболее предпочтительно, чтобы поисковые роботы охотно его потом подхватывали?
тут важно не сколько ссылок находится на странице, а важно сколько ссылок с других страниц ссылаются на эту страницу - тут среднее по больнице - минимум 10
500 слов - имеется в виду любых или именно некий текст? Например, на вашем проекте AutoRIA на страницах категорий нет дополнительного текста: https://auto.ria.com/car/used/ хотя страница явно продвигаемая. То же и на карточках автомобилей. Мне кажется, этот вопрос нужно уточнить. Для таких страниц микроразметка важнее.
А в остальном круто. Спасибо!
500 слов всего на странице, вместе со сквозным шаблоном (хедер футер и т.п.), там очень усредненные цифры, они больше подходят для контентных сайтов, чем для каталожных
в каталожных, например интернет магазины, авто сайты - нужно смотреть % полезного текста от шаблона, он более говорящий
А я вот пользуюсь лог-анализатором Screaming Frog. Чем аналитика от JetOctopus мне будет полезнее?
все зависит от объемов, для небольших сайтов SF вполне подходит
но есть еще момент с подобными тузловинами - они показывают где и как бот ходит, но не вы не видите где бот НЕ ходит, мы это и делаем с куче расширенной аналитики и инсайтов.
А как вообще лучше оптимизировать работу молодого и развивающегося сайта количество страниц у которого постоянно растёт. Например, всячески избегать DFI выше пяти как написано в статье? Регулярно делать перелиновку? А ещё что?
смотрите в логи регулярно, особенно после выливки апдейтов на сайт, чтобы вы могли сразу видеть ошибки, не дожидаясь "писем счастья" от гугла
То есть по факту, для молодого сайта, с большим количеством страниц нужно делать сложную структуру шаблонов страниц, незначительную удалённость от главной страницы и заливать туда текста больше 2000 символов и это резко повлияет на повышение посещений бота?
тут как из математики "необходимо, но недостаточно": самая главная цель - отвечать на запросы пользователей - полезный контент, юзабилити и так далее
Комментарий удален модератором
Комментарий удален модератором
Очень понравилась статья. Хотел бы уточнить. Вы исследовали работу Гугл бота. А что насчёт Яндекса? В русскоязычной среде всё же поисковик Яндекс более популярен. Как там ведёт себя бот в плане краулинга? Аналогично гугловскому?
яндекс у нас есть в данных, но не так много как гугла. В целом на него оказывают влияение все вышеперечисленные факторы, но не так сильно.
Например, он гораздо лояльнее относится к страницам которые есть только у вас в сайтмапе и их нет в перелинковке, гугл же по таким "не любит" ходить
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Прочтение статьи открыло новый взгляд на некоторые вещи, которые раньше казались мне не нужными. Объективно согласна, что можно использовать анализ логов и в своей деятельности. Буду пробовать
Только существуют сотни краулеров, как различных сервисов, всем известных так и и узконишевых, еще и частных, в сумме их тысячи. И большинство из них косит под гугл-бота. 70% трафика в сети, запросов к сайту являются различными ботами. Кто-то анализирует конкурентов, кто-то собирает линки, заголовки, ключи, кто-то текстовки, кто-то картинки, кто-то ищет уязвимости, кто-то ищет по фильтрам и собирает нужные ему сайты и еще тысячи причин. А многим вебмастерам важно знать, кто из миллиона ботов на сайте является гуглом, кто человеком, а кто мусором. И над этой задачей бьются лучшие умы, но так и не нашли 100% решения. Так как сам гугл одновременно косит под пользователя и всех остальных, он тоже прячется. Поэтому, что вы смогли наанализировать из этой кучи мусора совсем не понятно. Вы придумали сферического коня в вакууме, где есть один гугл и один сайт.
это не проблема, всегда есть ip адрес по которому можно сказать 100% гугл это или яндекс или бинг.
Поэтому, что вы смогли наанализировать из этой кучи мусора совсем не понятно. Вы придумали сферического коня в вакууме, где есть один гугл и один сайт.в статье под которой этот комментарий, я подробно описал что мы "наанализировать из этой кучи мусора"
Политически ангажированный сервис. Нет доступа с ip из России.
Вопрос к VC: зачем публиковать таких как автор этой статьи? Человек пишет на русском про сервис, который недоступен в России без vpn.