Кейс Preply.com: рост индексации сайта с 20% до 60% за год

Как в Preply.com добились роста индексируемых страниц на 300%, улучшив внутреннюю перелинковку? Кейс от JetOctopus.

Когда разговор заходит о внутренней оптимизации сайтов (техничке), то первое, что приходит на ум, — это перелинковка. Сложно подсчитать, сколько написано материалов, как её анализировать, проектировать и строить. Каждый уважающий себя эксперт должен написать как минимум пару статей по этому поводу (я вот вебинар провёл).

Кейс Preply.com: рост индексации сайта с 20% до 60% за год

Но главная проблема таких материалов — какой эффект конкретно мне дадут эти рекомендации? Какие результаты я смогу получить, поработав со своей перелинковкой: «вроде стало лучше» или измеримый рост?

С другой стороны, написать статью — это X усилий, а сделать кейс с разбором — это как минимум 5Х. И я рад поделиться с вами кейсом от наших клиентов — сайты онлайн-образования Preply.com.

Preply — это образовательная онлайн-платформа, которая объединяет студентов и репетиторов для изучения иностранных языков и других предметов. На 2017 год на сайте было зарегистрировано 4000 активных преподавателей, которые обучили более 100 тысяч студентов.

Обычно чтобы уговорить клиентов поделиться своими внутренними данными для публичного кейса, с этими клиентами нужно как минимум поддерживать дружеские отношения. Но в моём случае наше знакомство с техническим SEO-специалистом Preply.com Игорем Баньковским имеет длинную историю.

Я уже рассказывал о том, как мы пришли к написанию собственного краулера и какие выводы сделали о работе поискового бота Google и «Яндекса», когда проанализировали первые 6 млрд лог-строк клиентских сайтов.

Так вот, с самых первых дней Игорь Баньковский был нашим экспертом и наставником. Он занимается глубоким техническим SEO в течение восьми лет и специализируется именно на внутренней оптимизации, а не покупке ссылок. Игорь работал с такими сайтами, как nur.kz, rabota.ua, depositphotos.com, а также он читает собственный курс по глубокому SEO.

Именно ему мы показывали наши первые интерфейсы, обсуждали дальнейшее развитие краулера и прямым текстом спрашивали: «Каких ещё инструментов тебе не хватает для анализа? Что мы ещё можем сделать?».

Разумеется, для меня лично работа над Preply.com была очень ответственной.

Этот кейс — результат кропотливого педантичного труда в течение года. Благодаря полученной информации и внесённым изменениям Preply.com увеличил количество проиндексированных страниц с 20% до 60%.

Что делали

В этом разделе я передаю слово Игорю Баньковскому, который расскажет, как именно он пользовался нашим сервисом, как выстраивал свою аналитику и какие гипотезы строил.

Суть любой SEO оптимизации сводится к тому, чтобы как можно больше нужных страниц попали в индекс Google и «Яндекса», а ненужные страницы — не попадали совсем. Тогда поисковые системы будут показывать пользователям «правильные» страницы в ответ на их запросы, и пользователи, заходя на них, будут находить именно то, что искали. Мы будем увеличивать трафик и, соответственно, продажи, а пользователи — получать свою ценность.

Однако, если на нашем сайте больше миллиона страниц, мы просто не можем отправить в индекс их все — поисковики просто не готовы тратить на нас столько ресурсов. Так вот, здесь начинается одна из главных битв сайтов-миллионников вроде Preply.com — это битва за краулинговый бюджет.

Краулинговый бюджет — это определённое количество ресурсов, которое Googlebot тратит на сканирование вашего сайта. Он необходим, чтобы приоритезировать, что и когда сканировать и сколько ресурсов для сканирования может выделить хостинг, размещающий ваш сайт.

Размер бюджета зависит от различных факторов: размера сайта, скорости генерации страниц, структурных факторов, объёма запросов, по которым ранжируется сайт, их частотности и других.

Логически понятно, что если бюджет ограничен, то нужно потратить его на самое лучшее и самое «правильное». В SEO самое лучшее и «правильное» — это страницы, которые приводят много трафика, хорошо перелинкованы, содержат много текста и так далее.

Для этого нужно понять, что у вас на сайте самое лучшее, что и так приносит много трафика и сделать его ещё лучше: добавить больше текста, сократить расстояние до главной страницы, причесать то, что есть.

Но с большими сайтами часто бывает так, что бот всё равно тратит драгоценный краулинговый бюджет и ходит на страницы, где его быть не должно.

Страницы c тегом noindex

На сайте есть страницы, которые не должны быть проиндексированы. Скрыть такие страницы от поискового бота можно, если на них поставить метатег noindex. Но механизм работы этого тега состоит в том, что бот должен скраулить страницу, разобрать её (распарсить), обнаружить, что там стоит запрет на индексацию, и отбросить эту страницу.

Ситуация осложняется тем, что официальное руководство позиционирует meta = noindex как самый действенный метод запрета на индексацию. При этом умалчивая, что это может добавить проблем с краулинговым бюджетом.

Второй момент, про который нужно всегда помнить, — боту нужно периодически заходить на такие страницы, чтобы удостовериться, что вы не убрали с них запрет на индексацию. Таким образом бот вынужден тратить свои ресурсы на заведомо не ценностные страницы для него.

Поэтому первая задача, которую я перед собой поставил, это избавиться от ссылок, отправляющих бота на страницы с тегом noindex. Для этого нужно было понять, с каких именно страниц приходит бот.

Технически мы выполнили следующие действия (здесь и далее мы пользовались сервисом JetOctopus, но вы можете делать кросс-анализ другим удобным способом):

  • В DataTable Pages мы добавили колонку со страницами, на которые ссылаются страницы, открытые к индексации (datatable –> in links from indexable pages).
  • Настроили фильтр на это поле так, чтобы он показал страницы, у которых одна и больше таких ссылок.
  • Добавили сегмент non indexable pages (неиндексируемые страницы).

У нас получилась таблица со страницами, которые не индексируются, и сразу с адресами страниц, которые на них ссылаются. Мы убрали эти ссылки, и по логам стало видно, как бот увеличил посещения на другие страницы, в частности, которые не посещал ранее вовсе. Как итог — рост количества страниц в индексе.

Снижение непроиндексированных страниц в динамике по месяцам Аналитика Preply.com​
Снижение непроиндексированных страниц в динамике по месяцам Аналитика Preply.com​

Зависимость показов от количества внутренних ссылок

Далее я хотел проверить гипотезу: зависит ли количество показов страницы по НЧ-, СЧ-запросам от количества внутренних ссылок на эту страницу. То есть если внутри сайта мы часто ссылаемся на одну и ту же страницу, правда ли, что эту страницу Google будет чаще показывать пользователям?

Если гипотеза подтвердится, то мы могли бы улучшить показатели, увеличив количество внутренних ссылок на «правильные» страницы и таким образом ещё увеличить их важность и, соответственно, убрать внутреннюю перелинковку на неважные страницы.

Чтобы проверить гипотезу, мы сделали следующее:

  • К упомянутой выше таблице мы добавили новый слой данных из Google Search Console, где были все страницы, у которых был хотя бы один показ (>0). У нас получилось определённое количество страниц с показами, которое я, к сожалению, не могу разглашать.
  • Затем мы подсчитали среднее количество внутренних ссылок на эти страницы с показами.
  • После этого мы посчитали, сколько внутренних ссылок стоит на страницы, у которых совсем нет показов (=0).
  • Сравнили эти данные и поняли, куда нужно больше поставить ссылок.

Это позволило нам пересмотреть внутреннюю перелинковку для отдельных типов страниц. Мы нарастили количество ссылок на наиболее перспективные страницы с точки зрения трафика, и те в свою очередь начали получать показы и клики.

Динамика роста от перелинковки

И наконец мы хотели понять, как меняется динамика роста от перелинковки. Для этого мы сделали один краулинг сайта до выливки перелинковки. И затем ещё один краулинг после. И сравнили два результата сканирования.

Это позволило увидеть, что количество страниц, которые открыты к индексации, выросло с 20% до 60% от общего количества. А также это сравнение показало динамику по исправлению ошибок и дополнительные ошибки в перелинковке. Кроме того, мы нашли страницы совсем без ссылок.

Динамика страниц в индексе Google Аналитика Preply.com
Динамика страниц в индексе Google Аналитика Preply.com

Выводы

Работа с сайтом — это постоянный и непрерывный процесс, а работа с большим сайтом ещё добавляет сложностей из-за объёмов данных.

Какая бы ни была опытная команда сеошников, разработчиков, менеджеров, но с первого раза вряд ли получится сделать всё правильно и без ошибок.

То, что сработало на прошлом проекте два года назад, не означает, что сработает сейчас. Поэтому мы постоянно экспериментируем на сайте и стараемся увеличить органический трафик всеми доступными методами.

Очень важно в такой работе постоянно держать руку на пульсе и иметь возможность быстро проверять результаты внедрения изменений. В этом нам сильно помогает JetOctopus. Меня очень радует, что сервис постоянно развивается, а ценность от русскоязычной поддержки сложно описать словами.

Если у вас сайт от 100 тысяч страниц, советую постоянно работать с перелинковкой, структурой, отслеживать индексацию, смотреть логи и не забывать перекрауливать сайт после очередного деплоя на сервера.

1212
28 комментариев

Не увидел кейса...только рекламу..Описаны стандартные действия для абсолютно любого сайта от 100 страниц до нескольких миллионов (причем описаны так, что заголовок несет больше инфо нагрузки, чем остальная статья). Все это описано в сотнях блогов начала 2010 годов в более полном и понятном виде. Даже рекламную статью не удосужились подать с пользой.

Подобный кейс пишется за 5 минут:

Сделали сайт мэп, напихали ссылок на все страницы, закольцевали, посмотрели, что робот увидел страницы, профит. А забыл, еще ноиндекс пихнули, хотя каким он тут боком, вообще не ясно, учитывая, что гуглу по барабану на этот тег...

5
Ответить

абсолютно правы! все seo можно свести - делай контент и ссылки - будет профит.

1
Ответить

Эх, если бы я об этом прочитал, когда был новичком, то сделал бы меньше ошибок. 

Спасибо, что поделились опытом!

2
Ответить

Крутая статья! Data-driven подход в SEO - это то, чего многим нашим специалистам не хватает, к сожалению.

Недавно тестила анализатор логов JetOctopus. Обнаружилось, что 20% наших открытых к индексации страниц вовсе не посещаются ботом. Так что как раз с перелинковки и начали, явно наше слабое место. Заодно и кучу мусора почистили. 

Всем советую к прочтению, но ещё лучше - берите и применяйте на вашем сайте :)

1
Ответить

Спасибо, Mia.

Ответить

Слушал вебинар про перелинковку на больших сайтах - понравилось, как Сергей на конкретных примерах показывает как нужно и НЕ нужно линковать страницы. Ждем следующий вебинар!

У меня вопрос по кейсу. Вы пишите: "...нужно понять, что у вас на сайте самое лучшее, что и так приносит много трафика и сделать его еще лучше: добавить больше текста, сократить расстояние до главной страницы, причесать то что есть", -  а как это самое "лучшее" определить? Как узнать какие именно технические параметры приносят трафик на сайт?

1
Ответить

Igor Sochenko,  спасибо за вопрос. 

Из логов достаете страницы, которые посещаются поисковым ботом. Накладываете краулинговые данные и данные из GSC на этот список и получаете все техн.параметры каждого урла. И фильтруете: по скорости загрузки, по количеству внутренних ссылок и проч. Из чего видно, что один кластер страниц находится на 5м уровне вложенности, а на вашем сайте Crawl ratio оптимальное на 2-3 DFI, то эти страницы можно разместить ближе. Какие-то страницы можно наполнить дополнительным уникальным контентом и так далее. 

Ответить