{"id":14270,"url":"\/distributions\/14270\/click?bit=1&hash=a51bb85a950ab21cdf691932d23b81e76bd428323f3fda8d1e62b0843a9e5699","title":"\u041b\u044b\u0436\u0438, \u043c\u0443\u0437\u044b\u043a\u0430 \u0438 \u0410\u043b\u044c\u0444\u0430-\u0411\u0430\u043d\u043a \u2014 \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u0433\u043e\u0440\u0435","buttonText":"\u041d\u0430 \u043a\u0430\u043a\u043e\u0439?","imageUuid":"f84aced9-2f9d-5a50-9157-8e37d6ce1060"}

Serge Bezborodov

17 апр 2019 17.04.2019

Думай как Google: что мы узнали о поведении поискового бота Google спустя 6 млрд лог-строк

Технический директор JetOctopus Сергей Безбородов рассказывает, как сделать сайт более привлекательным для поискового бота, основываясь на результатах своего исследования по анализу логов длиной в один год и 300 млн проверенных страниц.

В прошлой статье я рассказывал о том, как в попытках увеличить трафик на своём сайте в 5 млн страниц я столкнулся с тем, что вместо качественной услуги глубокого SEO-анализа мне предлагали гадание на кофейной гуще. Тогда я сам разработал сервис для такого анализа и со своей партнёршей Юлией Нестерец построил SaaS-компанию JetOctopus.

Сейчас я хотел бы поделиться с вами общими положениями о поведении поисковых ботов, к которым мы пришли за это время. Я рассчитываю на то, что наши наблюдения как минимум помогут вам лучше понять, как работают веб-краулеры, ну а как максимум вы получите практические советы, которые помогут вам улучшить SEO вне зависимости от того, стали вы уже крупным сайтом или только растёте.

Как понять, попадаешь ли ты в выдачу

Узнать наверняка о том, какие страницы вашего сайта попадают в поисковую выдачу, а какие нет, можно только проверив весь сайт на индексацию. Однако если у вас 10 или 20 млн страниц, то проверить каждую из них может обойтись в круглую сумму, примерно равную стоимости паркетника KIA Sportage из салона.

Вместо этого мы обращаемся к анализу логов. Механика работы JetOctopus с клиентским сайтом такова: мы краулим сайт так, как делает это поисковой бот Google или «Яндекса», а затем анализируем логи сайта за последние шесть месяцев. В логах видно, заходил ли поисковой бот на сайт, если да, то на какие страницы, как давно и как часто.

Краулинг — это процесс, при котором поисковой бот (краулер) посещает ваш сайт, переходит по всем ссылкам и добавляет их в очередь на индексацию.
Он сравнивает список URL-страниц с теми, которые уже есть в индексе. Если нужно, обновляет их содержимое, добавляет новые и удаляет старые. Только после этого поисковик решает, попадают ли ваши страницы в индекс поисковой системы, а оттуда в выдачу результатов поиска.

Дальше всё просто — если бота не было на странице, то, скорее всего, её не будет в индексе. А вот если бот не просто был странице, а бывает по нескольку раз в день, то таким страницам нужно уделить максимум внимания.

В сумме эта информация даёт нам общую картину того, что мешает сайту органически расти и развиваться, и впервые не вслепую вносить технические изменения в страницы сайта и в его структуру.

Я много раз подчёркиваю, что мы работаем только с крупными сайтами, и тому есть одна причина: если на сайте меньше 50 тысяч страниц, то, скорее всего, рано или поздно поисковой бот посетит их все.

Но сайты от 100 тысяч страниц сталкиваются с тем, что веб-краулер ходит по страницам, о существовании которых владельцы сайта и не подозревают, и тратит ценный краулинговый бюджет на них. В то время как нужные и важные для индексирования страницы могут быть размещены неудобно для бота, и он о них никогда не узнает.

Краулинговый бюджет — это определённое количество ресурсов, которое Googlebot тратит на сканирование вашего сайта. Он необходим, чтобы приоритезировать, что и когда сканировать и сколько ресурсов для сканирования может выделить хостинг, размещающий ваш сайт.
Размер бюджета зависит от различных факторов: размера сайта, скорости генерации страниц, структурных факторов, объёма запросов, по которым ранжируется сайт, их частотности и других.

Поисковая система в целом не ставит целью скраулить полностью сайт, её цель — давать ответы на вопросы пользователей с минимальными для себя затратами.

Что индексировать, что не индексировать — не понятно

Наблюдаем за поисковым ботом

За последний год мы просканировали 300 млн страниц и проанализировали 6 млрд лог-строк больших сайтов. Нашими клиентами были Auto.RIA, TemplateMonster, HeadHunter, Preply, Work.ua и другие. Исходя из этих данных, мы заметили тенденции в поведении бота: какого типа страницы он пропускает, а на какие любит заходить почаще, на что обращает внимание, а что не имеет никакого значения.

Вся информация, представленная ниже, — результат нашего собственного анализа и выводов, к которым мы пришли, а не перевод на русский язык статьи с Google Webmasters. Мы не даём рекомендаций, эффективность которых не доказана и не обоснована. Все выводы, к которым мы пришли за это время, для удобства подкреплены соответствующими графиками.

Так что же влияет на поведение бота? От чего зависит, пойдёт он на конкретную вашу страницу или нет? Мы для себя выделили несколько факторов.

DFI

DFI расшифровывается как distance from index, а именно как далеко ваша страница находится от главной страницы в кликах. Это один из самых важных параметров, влияющих на популярность страницы у краулер-бота.

Причём важно понять, что эта дальность измеряется не вложенностью каталогов, как например, https://site.com/shop/iphone/iphoneX.html. Она измеряется именно количеством кликов от главной страницы: https://site.com iPhones Catalog → https://site.com/shop/iphone iPhone X → https://site.com/shop/iphone/iphoneX.html.

Ниже на графике вы можете увидеть, как планомерно угасает интерес поисковика Google к странице с её удалённостью от главной за последний месяц и за шесть месяцев.

Данные основаны на анализе 6 млрд лог-строк, 300 млн краулиновых страниц

Как мы видим, при удалённости от главной на пять или шесть кликов бот Google краулит уже только половину страниц, а чем дальше, тем процент страниц меньше. Значения этих графиков усреднённые для 18 млн страниц, проанализированных на момент построения графика, однако всё, конечно, зависит от ниши конкретного сайта.

Что делать

Очевидно, что лучшей стратегией в этом случае было бы избегать DFI выше пяти, тщательнее прорабатывать структуру сайта, уделять отдельное внимание перелинковке и так далее.

Но правда в том, что с сайтами больше 100 тысяч страниц этого добиться сложно. Обычно это сайты, имеющие свою историю, в течение которой они меняли структуру, поэтому нельзя просто взять и убрать страницы с DFI 10, 20 или даже 30. Также не решит проблему и проставить по одной ссылке, ведущей на них.

Оптимальным способом борьбы с высоким DFI будет посмотреть на эти страницы и понять, насколько они важны и какую позицию имеет эта страница в выдаче.

Страницы с большим DFI, но хорошим местом в выдаче имеют больший потенциал, чем аналогичные страницы, которые занимают сотые места по запросам.

Чтобы поднять посещаемость потенциально интересных страниц, на них нужно поставить ссылки с соседних страниц. Одной-двумя тут не обойдёшься. На графике ниже видно, что в среднем перелинковка начинает работать от одиннадцати ссылок на страницу и выше.

Перелинковка

Конечно, чем больше сайт, тем больше имеет значение количество ссылок, ведущих на конкретную страницу. Эти данные актуальны для сайтов от одного миллиона страниц и выше.

Если же вы обнаружили, что на важные страницы на вашем большом сайте ведёт меньше десяти ссылок, не спешите предпринимать срочные действия. Для начала проверьте, все ли из этих страниц качественные. И если да, добавляйте ссылки на них неспеша, небольшими итерациями, каждый раз проверяя через логи результат своих действий.

Размер контента

Это, пожалуй, самый известный аспект SEO-анализа. Разумеется, чем больше контента на вашем сайте, тем лучше. На графике видно, как критически падает значение Crawl Ratio на страницах, где меньше 500 слов.

Что делать

По моему опыту, в половине случаев страницы с контентом до 500 слов — мусорные. У нас был случай, когда на клиентском сайте мы нашли 70 тысяч страниц, содержащих в себе только размер одежды, причём часть этих страниц была в индексе.

Поэтому в первую очередь проверьте, нужны ли вам страницы, за которые вы собираетесь бороться. Если да, то количество контента придётся добавить. Если же добавить нечего — смиритесь и оставьте всё как есть. Иногда это лучше, чем пытаться высосать текст из пальца.

Дополнительные факторы

Кроме этого, ощутимое влияние на Crawl Ratio имеют следующие факты.

Время загрузки страницы

В первую очередь это скорость загрузки страницы. Боту приходится ждать загрузку вашей страницы так же, как и обычному пользователю, и тратить на это свои ресурсы. Так что если в вашем сайте больше миллиона страниц, высока вероятность, что бот скорее загрузит пять страниц по одной секунде, чем одну страницу, которая будет загружаться пять секунд.

Что делать

Это сугубо техническая задача, и нет единственного простого решения в стиле «взять сервер побольше». Но главный принцип — любую оптимизацию нужно начинать с профилирования, то есть понять, где узкие места, что именно тормозит, и потом уже предпринимать действия.

Полезный контент или шаблон страницы

Ещё важно соотношение полезного контента и шаблона страницы. Часто сайты, содержащие, например, имена детей или клички для собак, состоят из страницы с длинными и сложными шаблонами, а вот количество полезного контента там немного: либо список, либо короткое описание одного из пунктов.

Много ли контента соберёшь про клички собак? «Тузик — это старинная русская кличка, пришедшая к нам от любителей карточных игр». На такие страницы боты не хотят использовать свои ресурсы.

Что делать

Сохранять баланс. Заходить на страницы с большими сложными шаблонами, с большим количеством сторонних ссылок и практически полным отсутствием полезного контента не любят не только боты.

Orphan Pages

Orphan Pages — сиротские страницы с непростыми судьбами, о которых не знают поисковики. Лучше всего понять, что такое Orpgan Pages, помогут круги Эйлера на картинке ниже.

Вот нормальная ситуация для молодого сайта, который не успел пять раз поменять свою структуру: реальный объём сайта 900 тысяч страниц, 400 тысяч страниц из которых известны и вам, и поисковому боту Google, а 500 тысяч — ещё не известны. Закинув эти 500 тысяч страницы в индекс, вы гарантировано получите рост трафика.

Обратите внимание, что уже даже в этом случае есть небольшой кусочек страниц (синий сектор на рисунке), о которых вы не знаете и которых никогда не найдёте у себя на сайте, но о которых знает только Google. И там может быть что угодно. Например, результаты неудачного поиска пользователей.

Но большие сайты редко выглядят так аккуратно. В основном сайты с историей выглядят вот так.

Тут уже другая проблема: Google знает о вашем сайте больше, чем вы сами. Там могут быть удалённые страницы, страницы с JavaScript или AJAX, страницы неактуального редиректа или чёрт знает что ещё. У нас была ситуация, когда из-за программистской ошибки в карту сайта попал список из полумиллиона неработающих ссылок. Через три дня ошибку обнаружили и этот список оттуда убрали, но Googlebot продолжал ходить по этим битым ссылкам ещё полгода.

Зачастую краулинговый бюджет, о котором мы столько говорим, тратится не просто не самым эффективным образом — он расходуется на эти Orphan Pages.

Что делать

Тут есть два пути. Первый, каноничный — навести порядок. Привести в порядок структуру сайта, сделать перелинковку, присоединить Orphan Pages ссылками к часто посещаемым страницам — поставить задачи программистам и ждать переиндексации.

Второй, оперативный — собрать список URL этих страниц, проверить, рабочие ли они, и если да, то сгенерировать из них карту сайта и отправить в Google и «Яндекс». Это сделать легко и быстро, но в индекс при этом попадёт только половина.

Следующий уровень

Алгоритмы и технологии поисковиков развиваются уже два десятилетия, и наивно было бы полагать, что даже такие простые вещи, как краулинг сайта, можно описать несколькими графиками.

Мы по каждой странице собираем более 200 различных параметров, и до конца года это количество удвоится. Если представить сайт в виде таблицы в 1 млн строк (страниц), умноженных на 200 столбцов (параметров), становится очевидно, что простых выборок тут уже будет недостаточно.

Мы пошли дальше и применили машинное обучение, чтобы найти влияние факторов на краулинг Googlebot в каждом конкретном случае.

Для одних сайтов значительную роль играет контент, для других большее влияние оказывает перелинковка.

Конечная цель этой задачи: из сложных комплексных данных давать простые ответы — что наиболее сильно для вашего сайта влияет на поведение бота, какие кластера страниц связаны между собой общими факторами, чтобы вести над ними работу комплексно, и так далее.

До того как я сам загрузил и проанализировал логи своих сайтов-агрегаторов вакансий HotWork, мне казалось неправдоподобной эта история про сиротские страницы, которые видят поисковики, но не видим мы. Но реальная ситуация оказалась ещё более невероятной, чем я мог предположить. Например, у нас на сайте по краулеру было 500 страниц с 301 редиректом, а «Яндекс» видел 700 тысяч таких страниц.

Технари не очень любят хранить логи, якобы это «нагружает диски», большие объёмы и так далее. Но объективно: на большинстве сайтов с посещаемостью до 10 млн в месяц запись логов прекрасно работает с настройками по умолчанию.

Касаемо объёмов — архивируйте и скидывайте их на Amazon S3-Glacier — за $1 в месяц можете хранить 250 Гб данных, хватит надолго. Для системного администратора настройка такой интеграции не сложнее, чем заварить кофе.

В будущем исторические логи могут очень помочь в анализе проблем, влияния очередных апдейтов Google.

Поэтому я настоятельно советую вам попробовать лог-анализ. Уверен, он вас удивит.

14 показов

21K открытий

41 комментарий

Написать комментарий...

Jevgenijs Metelovs

17.04.2019

Крутая статья, спасибо! Редко когда увидишь не просто советы в статье, а еще и анализ.

Ответить

Развернуть ветку

Serge Bezborodov

17.04.2019 Автор

спасибо!

Ответить

Развернуть ветку

Аккаунт удален

17.04.2019

Комментарий недоступен

Ответить

Развернуть ветку

Serge Bezborodov

17.04.2019 Автор

В принципе да, Александр, но "смотреть ежедневно" - это очень оптимистичный настрой. Там не так мало данных и не такой уж это приятный процесс. Поэтому, как правило, на вопрос клиентам "Вы логи собираете"? Ответ "Да". "А вы когда-нибудь в них заглядывали?" Ответ "Нет." Ну и первая цель хранения логов - это на случай, вдруг если что-то глобальное упадет. Мы же показываем, какую пользу можно брать на регулярной основе. Приятно, если мы вас этим заразили.

Ответить

Развернуть ветку

Аккаунт удален

17.04.2019

Комментарий недоступен

Ответить

Развернуть ветку

Sviataslav Twil

17.04.2019

Через сервисы google cloud можно организовать автоматический сбор/обработку/анализ/хранение данных, если есть четкие критерии по параметрам и классификации.

Ответить

Развернуть ветку

Андрей Дымов

17.04.2019

Была бы ещё интересна статистика по роботам: кто чаще ходит, в какое время суток, корреляция между скоростью загрузки и количеством посещений. В общем, хочется взглянуть на цифры, но это уже, наверное, вне контекста статьи.

Ответить

Развернуть ветку

Serge Bezborodov

17.04.2019 Автор

мы делали подобные выборки, там инфы еще на пару статей, у гугла например есть зависимость между ботами адвордса и основным гуглботом - добавили большую кампанию на кучу кеев - набежали боты адвордса, основной бот гугла ушел - если не анализировать в комплексе, то можно испугаться))
на яндекс не такая сильная зависимость в крулинге по глубине сайта, если например в целом по гуглу crawl ratio низкий, а по яндексу высокий - часто говорит по проблемах в структуре

Ответить

Развернуть ветку

Igor Melnik

18.04.2019

Ждем пары статей, очень интересно!

Ответить

Развернуть ветку

Анна Іванова

17.04.2019

Статья хороша реальными данными, спасибо! Особенно впечатлило машинное изучение краулинга Гуглбота. Однако данные на графике не совсем понятны. Какие же факторы больше всего влияют на краулинговый бюджет?

Ответить

Развернуть ветку

Serge Bezborodov

17.04.2019 Автор

самый главный фактор - это насколько частотны запросы по которым ранжируется страница, потом идет вложенность по кликам, перелинковка
в целом на краулинговый бюджет влияет тематика сайта, размер и общий трафик

Ответить

Развернуть ветку

Алина Мыцик

17.04.2019

Подскажите способ проанализировать перелинковку на сайте. Я пытаюсь оптимизировать сайт под SILO архитектуру, глазами просмотриваю ссылки на каждой странице, но на 100-том УРЛе задолбалась. Буду благодарна за совет: как просканировать все ссылки одним махом?

Ответить

Развернуть ветку

Serge Bezborodov

17.04.2019 Автор

для небольших сайтов возьмите любой десктоп краулер, мне нравится sitebulb или нетпик - там скраулите и увидите картину по перелинковке

Ответить

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Serge Bezborodov

18.04.2019 Автор

т.е. поисковики тратят миллиардные бюджеты, двадцать лет разрабюатывают технологии, машин лернинги, ренк брейны и тут мы просто берем два сайта и "перемножаем" что-то на что-то и profit!
у Вас наверное много сайтов и куча трафика есть

Ответить

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Константин Котовский

17.04.2019

"Однако если у вас 10 или 20 млн страниц, то проверить каждую из них может обойтись в круглую сумму, примерно равную стоимости паркетника KIA Sportage из салона."
Автор, пожалуйста, раскройте экономику процесса проверки индексации за паркетник. Кажется, я прогадал с выбором автомобиля.

Ответить

Развернуть ветку

Анатолий Коновалов

18.04.2019

наймите программиста, который напишет необходимые для обработки данных программы и подгрузит их в гугл, а статья через чур из огорода все объясняет, согласен 90%, что написана для несведущих с целью рекламы платных программ в комментариях

Ответить

Развернуть ветку

марк марк

18.04.2019

Мне как владельцу двух сайтов, бы было интересно посмотреть на статистику роботов, желательно с цифрами. Сейчас поисковики изменяют правила почти каждый день, тяжело сеошникам.

Ответить

Развернуть ветку

Иван Миронов

18.04.2019

И каким образом набивать сайт символами, если это, например, интерне-магазин. Здесь же будут обычные категории, айтемы и не более + все похожие по структуре. Или здесь другой СЕО-подход?

Ответить

Развернуть ветку

Анатолий Коновалов

18.04.2019

мало знать какие страницы обошел робот, надо еще знать по как оптимизировать sitemap для ранее криворуко добавленного сайта в индекс гугла и что сделать с самим сайтом

Ответить

Развернуть ветку

Руслан Юсупов

18.04.2019

О таком векторе анализа данных я еще не слышал. Знаю в основном про Anatilycs, Search Console. То что можно вытащить данные о поведении бота на твоем сайте, вообще впервые слышу. Мега ценная статья. Надо разбираться.

Ответить

Развернуть ветку

Alexander Osipov

19.04.2019

Можете посоветовать бесплатный анализатор логов сайта с визуализацией по ошибкам, сканам страниц и прочее. Сайт не большой до 2000 страниц.

Ответить

Развернуть ветку

Serge Bezborodov

24.04.2019 Автор

бесплатных не знаю, платные есть достаточно много - как sitebulb, netpeak spider и ну и скримин фрог

Ответить

Развернуть ветку

Andrey Parovoz

22.04.2019

Недавно свой сайт подгонял, всякий мусор с него так сказать удалял, некоторые страницы совершенно подругому оформил, текст другой сделал, и знаете - больше посещений реально стало)

Ответить

Развернуть ветку

оксана калина

22.04.2019

Мне бы было очень интересно посмотреть на статистику по роботам, кто по каким страницам чаще всего заходит, приведенные цифры могли быть полезней чем статья. А так данный материал лишним не будет.

Ответить

Развернуть ветку

Марк Зыков

22.04.2019

Сбором статистики с логов посещений актуальный способ, который дает многое понять и проанализировать. К сожалению, мало кто так делает. Статься интересная, побольше бы таких

Ответить

Развернуть ветку

Бизтотал Бизтотал

28.04.2019

Serge Bezborodov, скажите, пожалуйста,

А есть ли данные о том, какое оптимальное количество внутренних ссылок на одной странице наиболее предпочтительно, чтобы поисковые роботы охотно его потом подхватывали?

Ответить

Развернуть ветку

Serge Bezborodov

29.04.2019 Автор

тут важно не сколько ссылок находится на странице, а важно сколько ссылок с других страниц ссылаются на эту страницу - тут среднее по больнице - минимум 10

Ответить

Развернуть ветку

Владимир Игнашин

17.04.2019

500 слов - имеется в виду любых или именно некий текст? Например, на вашем проекте AutoRIA на страницах категорий нет дополнительного текста: https://auto.ria.com/car/used/ хотя страница явно продвигаемая. То же и на карточках автомобилей. Мне кажется, этот вопрос нужно уточнить. Для таких страниц микроразметка важнее.
А в остальном круто. Спасибо!

AUTO.RIA – Бу авто с пробегом в Украине: купить…

Огромное количество объявлений о продаже подержанных авто. На AUTO.RIA легко найти, сравнить и…

auto.ria.com

Ответить

Развернуть ветку

Serge Bezborodov

17.04.2019 Автор

500 слов всего на странице, вместе со сквозным шаблоном (хедер футер и т.п.), там очень усредненные цифры, они больше подходят для контентных сайтов, чем для каталожных
в каталожных, например интернет магазины, авто сайты - нужно смотреть % полезного текста от шаблона, он более говорящий

Ответить

Развернуть ветку

Mia Melnik

17.04.2019

А я вот пользуюсь лог-анализатором Screaming Frog. Чем аналитика от JetOctopus мне будет полезнее?

Ответить

Развернуть ветку

Serge Bezborodov

17.04.2019 Автор

все зависит от объемов, для небольших сайтов SF вполне подходит
но есть еще момент с подобными тузловинами - они показывают где и как бот ходит, но не вы не видите где бот НЕ ходит, мы это и делаем с куче расширенной аналитики и инсайтов.

Ответить

Развернуть ветку

Иван Смирнов

17.04.2019

А как вообще лучше оптимизировать работу молодого и развивающегося сайта количество страниц у которого постоянно растёт. Например, всячески избегать DFI выше пяти как написано в статье? Регулярно делать перелиновку? А ещё что?

Ответить

Развернуть ветку

Serge Bezborodov

17.04.2019 Автор

смотрите в логи регулярно, особенно после выливки апдейтов на сайт, чтобы вы могли сразу видеть ошибки, не дожидаясь "писем счастья" от гугла

Ответить

Развернуть ветку

Sobaka Zabiyaka

17.04.2019

То есть по факту, для молодого сайта, с большим количеством страниц нужно делать сложную структуру шаблонов страниц, незначительную удалённость от главной страницы и заливать туда текста больше 2000 символов и это резко повлияет на повышение посещений бота?

Ответить

Развернуть ветку

Serge Bezborodov

17.04.2019 Автор

тут как из математики "необходимо, но недостаточно": самая главная цель - отвечать на запросы пользователей - полезный контент, юзабилити и так далее

Ответить

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Руслан Степанов

17.04.2019

Очень понравилась статья. Хотел бы уточнить. Вы исследовали работу Гугл бота. А что насчёт Яндекса? В русскоязычной среде всё же поисковик Яндекс более популярен. Как там ведёт себя бот в плане краулинга? Аналогично гугловскому?

Ответить

Развернуть ветку

Serge Bezborodov

17.04.2019 Автор

яндекс у нас есть в данных, но не так много как гугла. В целом на него оказывают влияение все вышеперечисленные факторы, но не так сильно.
Например, он гораздо лояльнее относится к страницам которые есть только у вас в сайтмапе и их нет в перелинковке, гугл же по таким "не любит" ходить

Ответить

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Ева Пономарева

22.04.2019

Прочтение статьи открыло новый взгляд на некоторые вещи, которые раньше казались мне не нужными. Объективно согласна, что можно использовать анализ логов и в своей деятельности. Буду пробовать

Ответить

Развернуть ветку

Sergey G

23.04.2019

Только существуют сотни краулеров, как различных сервисов, всем известных так и и узконишевых, еще и частных, в сумме их тысячи. И большинство из них косит под гугл-бота. 70% трафика в сети, запросов к сайту являются различными ботами. Кто-то анализирует конкурентов, кто-то собирает линки, заголовки, ключи, кто-то текстовки, кто-то картинки, кто-то ищет уязвимости, кто-то ищет по фильтрам и собирает нужные ему сайты и еще тысячи причин. А многим вебмастерам важно знать, кто из миллиона ботов на сайте является гуглом, кто человеком, а кто мусором. И над этой задачей бьются лучшие умы, но так и не нашли 100% решения. Так как сам гугл одновременно косит под пользователя и всех остальных, он тоже прячется. Поэтому, что вы смогли наанализировать из этой кучи мусора совсем не понятно. Вы придумали сферического коня в вакууме, где есть один гугл и один сайт.

Ответить

Развернуть ветку

Serge Bezborodov

24.04.2019 Автор

А многим вебмастерам важно знать, кто из миллиона ботов на сайте является гуглом, кто человеком, а кто мусором.

это не проблема, всегда есть ip адрес по которому можно сказать 100% гугл это или яндекс или бинг.

Поэтому, что вы смогли наанализировать из этой кучи мусора совсем не понятно. Вы придумали сферического коня в вакууме, где есть один гугл и один сайт.

в статье под которой этот комментарий, я подробно описал что мы "наанализировать из этой кучи мусора"

Ответить

Развернуть ветку

Evgeny Kovalev

23 янв

Политически ангажированный сервис. Нет доступа с ip из России.
Вопрос к VC: зачем публиковать таких как автор этой статьи? Человек пишет на русском про сервис, который недоступен в России без vpn.

Ответить

Развернуть ветку

Написать комментарий...

38 комментариев

Раскрывать всегда