30 сен 2019 30.09.2019

Кейс Preply.com: рост индексации сайта с 20% до 60% за год

Как в Preply.com добились роста индексируемых страниц на 300%, улучшив внутреннюю перелинковку? Кейс от JetOctopus.

Когда разговор заходит о внутренней оптимизации сайтов (техничке), то первое, что приходит на ум, — это перелинковка. Сложно подсчитать, сколько написано материалов, как её анализировать, проектировать и строить. Каждый уважающий себя эксперт должен написать как минимум пару статей по этому поводу (я вот вебинар провёл).

Но главная проблема таких материалов — какой эффект конкретно мне дадут эти рекомендации? Какие результаты я смогу получить, поработав со своей перелинковкой: «вроде стало лучше» или измеримый рост?

С другой стороны, написать статью — это X усилий, а сделать кейс с разбором — это как минимум 5Х. И я рад поделиться с вами кейсом от наших клиентов — сайты онлайн-образования Preply.com.

Preply — это образовательная онлайн-платформа, которая объединяет студентов и репетиторов для изучения иностранных языков и других предметов. На 2017 год на сайте было зарегистрировано 4000 активных преподавателей, которые обучили более 100 тысяч студентов.

Обычно чтобы уговорить клиентов поделиться своими внутренними данными для публичного кейса, с этими клиентами нужно как минимум поддерживать дружеские отношения. Но в моём случае наше знакомство с техническим SEO-специалистом Preply.com Игорем Баньковским имеет длинную историю.

Я уже рассказывал о том, как мы пришли к написанию собственного краулера и какие выводы сделали о работе поискового бота Google и «Яндекса», когда проанализировали первые 6 млрд лог-строк клиентских сайтов.

Так вот, с самых первых дней Игорь Баньковский был нашим экспертом и наставником. Он занимается глубоким техническим SEO в течение восьми лет и специализируется именно на внутренней оптимизации, а не покупке ссылок. Игорь работал с такими сайтами, как nur.kz, rabota.ua, depositphotos.com, а также он читает собственный курс по глубокому SEO.

Именно ему мы показывали наши первые интерфейсы, обсуждали дальнейшее развитие краулера и прямым текстом спрашивали: «Каких ещё инструментов тебе не хватает для анализа? Что мы ещё можем сделать?».

Разумеется, для меня лично работа над Preply.com была очень ответственной.

Этот кейс — результат кропотливого педантичного труда в течение года. Благодаря полученной информации и внесённым изменениям Preply.com увеличил количество проиндексированных страниц с 20% до 60%.

Что делали

В этом разделе я передаю слово Игорю Баньковскому, который расскажет, как именно он пользовался нашим сервисом, как выстраивал свою аналитику и какие гипотезы строил.

Суть любой SEO оптимизации сводится к тому, чтобы как можно больше нужных страниц попали в индекс Google и «Яндекса», а ненужные страницы — не попадали совсем. Тогда поисковые системы будут показывать пользователям «правильные» страницы в ответ на их запросы, и пользователи, заходя на них, будут находить именно то, что искали. Мы будем увеличивать трафик и, соответственно, продажи, а пользователи — получать свою ценность.

Однако, если на нашем сайте больше миллиона страниц, мы просто не можем отправить в индекс их все — поисковики просто не готовы тратить на нас столько ресурсов. Так вот, здесь начинается одна из главных битв сайтов-миллионников вроде Preply.com — это битва за краулинговый бюджет.

Краулинговый бюджет — это определённое количество ресурсов, которое Googlebot тратит на сканирование вашего сайта. Он необходим, чтобы приоритезировать, что и когда сканировать и сколько ресурсов для сканирования может выделить хостинг, размещающий ваш сайт.
Размер бюджета зависит от различных факторов: размера сайта, скорости генерации страниц, структурных факторов, объёма запросов, по которым ранжируется сайт, их частотности и других.

Логически понятно, что если бюджет ограничен, то нужно потратить его на самое лучшее и самое «правильное». В SEO самое лучшее и «правильное» — это страницы, которые приводят много трафика, хорошо перелинкованы, содержат много текста и так далее.

Для этого нужно понять, что у вас на сайте самое лучшее, что и так приносит много трафика и сделать его ещё лучше: добавить больше текста, сократить расстояние до главной страницы, причесать то, что есть.

Но с большими сайтами часто бывает так, что бот всё равно тратит драгоценный краулинговый бюджет и ходит на страницы, где его быть не должно.

Страницы c тегом noindex

На сайте есть страницы, которые не должны быть проиндексированы. Скрыть такие страницы от поискового бота можно, если на них поставить метатег noindex. Но механизм работы этого тега состоит в том, что бот должен скраулить страницу, разобрать её (распарсить), обнаружить, что там стоит запрет на индексацию, и отбросить эту страницу.

Ситуация осложняется тем, что официальное руководство позиционирует meta = noindex как самый действенный метод запрета на индексацию. При этом умалчивая, что это может добавить проблем с краулинговым бюджетом.

Второй момент, про который нужно всегда помнить, — боту нужно периодически заходить на такие страницы, чтобы удостовериться, что вы не убрали с них запрет на индексацию. Таким образом бот вынужден тратить свои ресурсы на заведомо не ценностные страницы для него.

Поэтому первая задача, которую я перед собой поставил, это избавиться от ссылок, отправляющих бота на страницы с тегом noindex. Для этого нужно было понять, с каких именно страниц приходит бот.

Технически мы выполнили следующие действия (здесь и далее мы пользовались сервисом JetOctopus, но вы можете делать кросс-анализ другим удобным способом):

В DataTable Pages мы добавили колонку со страницами, на которые ссылаются страницы, открытые к индексации (datatable –> in links from indexable pages).
Настроили фильтр на это поле так, чтобы он показал страницы, у которых одна и больше таких ссылок.
Добавили сегмент non indexable pages (неиндексируемые страницы).

У нас получилась таблица со страницами, которые не индексируются, и сразу с адресами страниц, которые на них ссылаются. Мы убрали эти ссылки, и по логам стало видно, как бот увеличил посещения на другие страницы, в частности, которые не посещал ранее вовсе. Как итог — рост количества страниц в индексе.

Снижение непроиндексированных страниц в динамике по месяцам Аналитика Preply.com

Зависимость показов от количества внутренних ссылок

Далее я хотел проверить гипотезу: зависит ли количество показов страницы по НЧ-, СЧ-запросам от количества внутренних ссылок на эту страницу. То есть если внутри сайта мы часто ссылаемся на одну и ту же страницу, правда ли, что эту страницу Google будет чаще показывать пользователям?

Если гипотеза подтвердится, то мы могли бы улучшить показатели, увеличив количество внутренних ссылок на «правильные» страницы и таким образом ещё увеличить их важность и, соответственно, убрать внутреннюю перелинковку на неважные страницы.

Чтобы проверить гипотезу, мы сделали следующее:

К упомянутой выше таблице мы добавили новый слой данных из Google Search Console, где были все страницы, у которых был хотя бы один показ (>0). У нас получилось определённое количество страниц с показами, которое я, к сожалению, не могу разглашать.
Затем мы подсчитали среднее количество внутренних ссылок на эти страницы с показами.
После этого мы посчитали, сколько внутренних ссылок стоит на страницы, у которых совсем нет показов (=0).
Сравнили эти данные и поняли, куда нужно больше поставить ссылок.

Это позволило нам пересмотреть внутреннюю перелинковку для отдельных типов страниц. Мы нарастили количество ссылок на наиболее перспективные страницы с точки зрения трафика, и те в свою очередь начали получать показы и клики.

Динамика роста от перелинковки

И наконец мы хотели понять, как меняется динамика роста от перелинковки. Для этого мы сделали один краулинг сайта до выливки перелинковки. И затем ещё один краулинг после. И сравнили два результата сканирования.

Это позволило увидеть, что количество страниц, которые открыты к индексации, выросло с 20% до 60% от общего количества. А также это сравнение показало динамику по исправлению ошибок и дополнительные ошибки в перелинковке. Кроме того, мы нашли страницы совсем без ссылок.

Динамика страниц в индексе Google Аналитика Preply.com

Выводы

Работа с сайтом — это постоянный и непрерывный процесс, а работа с большим сайтом ещё добавляет сложностей из-за объёмов данных.

Какая бы ни была опытная команда сеошников, разработчиков, менеджеров, но с первого раза вряд ли получится сделать всё правильно и без ошибок.

То, что сработало на прошлом проекте два года назад, не означает, что сработает сейчас. Поэтому мы постоянно экспериментируем на сайте и стараемся увеличить органический трафик всеми доступными методами.

Очень важно в такой работе постоянно держать руку на пульсе и иметь возможность быстро проверять результаты внедрения изменений. В этом нам сильно помогает JetOctopus. Меня очень радует, что сервис постоянно развивается, а ценность от русскоязычной поддержки сложно описать словами.

Если у вас сайт от 100 тысяч страниц, советую постоянно работать с перелинковкой, структурой, отслеживать индексацию, смотреть логи и не забывать перекрауливать сайт после очередного деплоя на сервера.

15 показов

3.2K открытий

28 комментариев

Написать комментарий...

Kaito Teh

30.09.2019

Не увидел кейса...только рекламу..Описаны стандартные действия для абсолютно любого сайта от 100 страниц до нескольких миллионов (причем описаны так, что заголовок несет больше инфо нагрузки, чем остальная статья). Все это описано в сотнях блогов начала 2010 годов в более полном и понятном виде. Даже рекламную статью не удосужились подать с пользой.

Подобный кейс пишется за 5 минут:

Сделали сайт мэп, напихали ссылок на все страницы, закольцевали, посмотрели, что робот увидел страницы, профит. А забыл, еще ноиндекс пихнули, хотя каким он тут боком, вообще не ясно, учитывая, что гуглу по барабану на этот тег...

Ответить

Развернуть ветку

Serge Bezborodov

8.10.2019 Автор

абсолютно правы! все seo можно свести - делай контент и ссылки - будет профит.

Ответить

Развернуть ветку

Прочел это-потратил время зря

30.09.2019

Эх, если бы я об этом прочитал, когда был новичком, то сделал бы меньше ошибок.

Спасибо, что поделились опытом!

Ответить

Развернуть ветку

Mia Melnik

30.09.2019

Крутая статья! Data-driven подход в SEO - это то, чего многим нашим специалистам не хватает, к сожалению.

Недавно тестила анализатор логов JetOctopus. Обнаружилось, что 20% наших открытых к индексации страниц вовсе не посещаются ботом. Так что как раз с перелинковки и начали, явно наше слабое место. Заодно и кучу мусора почистили.

Всем советую к прочтению, но ещё лучше - берите и применяйте на вашем сайте :)

Ответить

Развернуть ветку

Serge Bezborodov

30.09.2019 Автор

Спасибо, Mia.

Ответить

Развернуть ветку

Pavel Zamyatin

30.09.2019

Три комментария Mia за полгода и все к вашим статьям. Поклонник таланта, не иначе, берегите ее.

Ответить

Развернуть ветку

Igor Sochenko

30.09.2019

Слушал вебинар про перелинковку на больших сайтах - понравилось, как Сергей на конкретных примерах показывает как нужно и НЕ нужно линковать страницы. Ждем следующий вебинар!

У меня вопрос по кейсу. Вы пишите: "...нужно понять, что у вас на сайте самое лучшее, что и так приносит много трафика и сделать его еще лучше: добавить больше текста, сократить расстояние до главной страницы, причесать то что есть", - а как это самое "лучшее" определить? Как узнать какие именно технические параметры приносят трафик на сайт?

Ответить

Развернуть ветку

Serge Bezborodov

30.09.2019 Автор

Igor Sochenko, спасибо за вопрос.

Из логов достаете страницы, которые посещаются поисковым ботом. Накладываете краулинговые данные и данные из GSC на этот список и получаете все техн.параметры каждого урла. И фильтруете: по скорости загрузки, по количеству внутренних ссылок и проч. Из чего видно, что один кластер страниц находится на 5м уровне вложенности, а на вашем сайте Crawl ratio оптимальное на 2-3 DFI, то эти страницы можно разместить ближе. Какие-то страницы можно наполнить дополнительным уникальным контентом и так далее.

Ответить

Развернуть ветку

Pavel Zamyatin

30.09.2019

Нет, серьезно, вы сами их пишите что ли? Блин, ну, грустно это как-то.

Ответить

Развернуть ветку

Serge Bezborodov

30.09.2019 Автор

Согласен, грустно. В том-то и дело, что не сами..

Ответить

Развернуть ветку

Алексис Второй

30.09.2019

Однако, если на нашем сайте больше миллиона страниц, мы просто не можем отправить в индекс их все — поисковики просто не готовы тратить на нас столько ресурсов.

Не севошник, но на одном моём билингвальном ресурсе краулер гугла за пару месяцев изучил более 3 млн страниц. По моему несеошному мнению ключевыми факторами были:

– перелинковка;

– автогенерируемые ПРАВИЛЬНЫЕ сайтмепы с ссылками на ВСЕ нужные в индексе страницы;

– серверное сжатие всего и вся;

– быстрое время отдачи.

Время, затраченное на загрузку страницы (в миллисекундах):

– Высокий – 210

– В среднем – 93

– Низкий – 60

Изначально была допущена ошибка с настройкой сервера, поэтому с Яндексом поначалу не сложилось, хотя просматривал он не сильно меньше краулера гугла, но на данный момент подход даёт тоже неплохие результаты и в Яндексе: проиндексировано 6.5+ млн, в индексе 2+ млн.

Ответить

Развернуть ветку

Michael Mehonoshin

2.10.2019

Поделись какая ошибка была допущена?

Ответить

Развернуть ветку

Алексис Второй

3.10.2019

Как оказалось (внезапно!), для Яндекса для многоязычных сайтов необходимо делать сайтмепы в формате, отличном от гугловского. Еще была проблема с зеркалированием из-за неправильной настройки https (внезапно #2!) и Яндекс не смог сам отделить мух от котлет.

Ответить

Развернуть ветку

Ilya Karbyshev

1.10.2019

Независимо от кейса - сам краулер JetOctopus годный (я зареган с 2016 на vc, так что нечего тут про отзывы). Технические ошибки представлены в виде удобных дашбордов, и есть клевые пересечения в отчетах, например - сегмент страниц по количеству ошибок, контента, ссылок/данные из GSC. Много сразу очевидных вещей замечаешь, которые раньше не видел. Еще б интеграцию с Я.Вебмастером добавили, понятно что РФ рынок не особо интересен, но тут тоже есть жизнь

Ответить

Развернуть ветку

Serge Bezborodov

1.10.2019 Автор

спасибо за отзыв Илья!

интеграция с яндексом - это не вопрос приоритетов, а увы у них тупо нет API для этого. Там можно получить данные только по топ 500 страниц и все, а парсить интерфейс и вытягивать данные - так себе занятие.

Ответить

Развернуть ветку

КотМизантроп

19.10.2019

Быть может вы на нем зареганы, потому как вы его разработчик?
Статья вообще полностью рекламная...

Ответить

Развернуть ветку

Щербачев Михаил

2.10.2019

Использовали сервис для проверки корректности урлов после переезда сайта на новый движок. А потом и проверки индексации.

Я могу рекомендовать.

Если хотите больше конкретики недавно на вебинаре Сергей все рассказал от патентов Гугла до современной практики работы.

Если совсем по хардкору хотите для сайтов миллионников, то посмотрите Поломаря видосы.Кто, кстати, в больших сомнениях. Залейте и два разных сервиса и сравните скорость краулинга.

Я вот недавно к другим товарищам залил сайт на 150к страниц всего и 3 дня ждал пока колесо докрутится.

А по кейсу — руку действительно надо держать на пульсе. Тупейшие ошибки находил у клиентов, которые работали 2-3 года со штатными спецами.

Ответить

Развернуть ветку

Николай Жильцов

30.09.2019

ошибка подзаголовка

Ответить

Развернуть ветку

Serge Bezborodov

1.10.2019 Автор

Не понял в чем? Уточните, Николай.

Ответить

Развернуть ветку

Николай Жильцов

1.10.2019

Страницы, а не "старницы"

Ответить

Развернуть ветку

Мой Чернигов

1.10.2019

А не проще сделать last modified?

Ответить

Развернуть ветку

Serge Bezborodov

1.10.2019 Автор

lastmod хороший рабочий метод, но решает проблему лишь частично

Ответить

Развернуть ветку

Ilya Karbyshev

1.10.2019

Так вроде бот не особо следует этой директиве?

Ответить

Развернуть ветку

Serge Bezborodov

1.10.2019 Автор

Googlebot нормально ее воспринимает, вся суть в том, что когда он к вам приходит с заголовком if-modified-since и если у вас контент не поменялся с этой даты, вы отдаете ему 304 код без контента.

Как итог - у вас увеличивается количество посещенных страниц с кодом 200. Но есть детали реализации, не стоит например на весь сайт лупануть одну и туже last-modified дату, ее нужно "размазывать" во времени. Точно также не стоит совмещать внедрение 304 кода вместе с обновлением перелинковки, когда вам наоборот нужно, чтобы бот переобошел как можно больше страниц.

В алгоритмах бота очень много эвристик, и если он видел что-то похожее на баг, он может начать это игнорировать.

Как например если вы отдаете 5xx код для robots.txt в течение месяца и более, он начинает игнорировать его.

Ответить

Развернуть ветку

Альбина Никитченко

17.10.2019

Для нового сайта, который не проиндексировался еще нужно настраивать last-modified ?

Ответить

Развернуть ветку

Serge Bezborodov

17.10.2019 Автор

все зависит от размеров сайта, если больше +-100к страниц то внедрять смысл есть. Для нового сайта - мне сложно сказать, не было такого опыта, но чисто на уровне мнения - не стоит. Обычно новые сайты это тонны багов и пусть лучше разработка сделает хорошо основной функционал без косяков, а потом можно заниматься оптимизацией

Ответить

Развернуть ветку

Serge Bezborodov

30.09.2019 Автор

Алексей, спасибо за комментарий. Согласен с вами, что можно загнать и 5 и более млн. страниц в индекс. Суть моего выражения была в том, что ВСЕ страницы сайта на 1 млн.+страниц загнать невозможно. Поэтому нужно приоритизировать работу с сайтом.

Ответить

Развернуть ветку

Ильнур Гайсин

2.10.2019

У меня на сайтах 2000...10000 страниц, вопрос линковки решил через Sitedozor (если это реклама, пусть модератор сотрет). Плюс - он сам отправляет страницы в переобход, причем как заявлено по алгоритму, учитывающему важность страниц. В том числе новые, продвигаемые и т.д. с учетом лимитов. Комплексным анализом можно быстро найти косяки всех страниц. Есть еще отдельный анализ перелинковки - пока не пользовался, так как времени не хватает все править.

Ответить

Развернуть ветку

Написать комментарий...

25 комментариев

Раскрывать всегда