Техническая оптимизация сайта, часть первая

Пошаговый план от руководителя оптимизаторов в «Ашманов и партнёры» Никиты Тарасова.

В предыдущих статьях мы говорили об актуальных методах сбора семантики и текстовой оптимизации. Теперь речь пойдёт о технической, или о внутренней, оптимизации. Она значительно влияет на правильную индексацию и ранжирование и ещё помогает обезопасить сайт от утечки непубличных данных в выдачу поисковых систем.

В первой части статьи разберём:

Оптимизацию URL-адресов страниц сайта.
Поиск и устранение «зеркал» сайта.
Корректировку robots.txt.
Определение и устранение дублей страниц.
Работу сайта при отключенном JavaScript.
Обработку ошибки 404.

Для правильной индексации важно, чтобы страницы сайта отражали его структуру. Поэтому уровни вложенности URL должны соответствовать уровню вложенности страниц относительно корня сайта. Но не стоит впадать в крайность и делать адреса c пятью уровнями вложенности и более.

При формировании адресов следует придерживаться простых правил:

Исключить из адресов все специальные символы вроде «?», «=», «&».
Использовать цифры в псевдостатических адресах можно без ограничений.
В качестве разделителя слов в адресе лучше использовать символ «-» (дефис).
Использовать в адресах транслитерированные ключевые слова, которые в точности соответствуют контенту страницы.
Использовать в адресах только строчные латинские символы, не кириллицу.

Возьмём в качестве примера интернет-магазин мебели. В каталоге магазина существует раздел «Угловые диваны». Правильный URL-адрес этого раздела выглядит так: domain.ru/catalog/uglovye-divany/.

Частая проблема, особенно среди интернет-магазинов, — когда одна страница доступна по нескольким адресам. Например, для одного товара создают несколько адресов в зависимости раздела, в котором он расположен. С точки зрения поисковых систем такие страницы считаются дублями и негативно влияют на индексацию.

Некоторые решают эту проблему при помощи тега link с атрибутом rel=”canonical”. Но этот тег служит рекомендательным и не всегда учитывается поисковыми системами. Лучше задать универсальный адрес. Например, адрес карточки товара для условного дивана «Амстердам» будет выглядеть так: domain.ru/product/amsterdam.

Внедрение данного алгоритма формирования псевдостатических адресов для страниц карточек товаров позволит:

Избежать чрезмерного уровня вложенности в структуре URL и положительно скажется на индексации.
Устранит риск возникновения дублей.

Важно: после внедрения или корректировки псевдостатической адресации со всех старых URL на новые настройте редиректы 301. При переходе на страницы по новым адресам сервер не должен выдавать промежуточный код ответа 301. В ответ на запрос страницы сервер должен выдавать содержимое страницы с кодом ответа 200 без перенаправлений.

Поисковые системы не любят, когда у сайта есть «зеркала», то есть точные копии, размещённые на других доменах.

«Зеркала» обычно возникают по следующим причинам:

Когда несколько доменов привязаны к одному физическому сайту (набору файлов на хостинге).
Когда есть служебные домены, автоматически генерируемые хостингом.
Когда домен с указанием порта (например, domain.ru:8080).
Из-за IP-адреса (например, если сайт доступен по IP 192.168.1.1).

Несколько шагов, которые помогут обнаружить дубли:

Проверьте сайт с помощью сервисов для поиска «зеркал» и индексированных доменов.
Определите IP-адрес сайта (например, в 2ip).
Выгрузите источники по страницам входа из «Яндекс.Метрики» в таблицу Excel (ставим точность 100% и временной интервал около десяти лет).

Пример выгрузки источников по страницам входа из «Яндекс.Метрики»

Первый столбец данных из «Яндекс.Метрики» нужно скопировать в отдельную вкладку и объединить с данными, которые мы получили в ходе первых двух шагов. Затем в таблице с помощью функции «Заменить на» удалите протоколы HTTP и HTTPS и префиксы WWW. Затем из списка нужно удалить дубли.

Далее, при помощи SeoAG генерируем список всех возможных сочетаний (с WWW и без, с HTTP и без, c HTTPS и без) при помощи функции {http:|https:}{//|//www.}{domain1.ru|domain2.ru}, где domain1.ru|domain2.ru — уникальный список доменов, полученный ранее. Добавляем список доменов при помощи «Мастер ввода».

Пример генерации списка доменов при помощи SEO Anchor Generator

Затем сгенерированный список доменов добавляем в Screaming Frog Seo Spider и переключаемся в режим List. Настраиваем учёт директив robots.txt. Загружаем итоговый список доменов.

Далее все URL c кодом ответа 200 Ok проверяем вручную и выясняем, что именно находится по таким адресам.

Пример импорта списка доменов в Screaming Frog Seo Spider для проверки

Найти зеркало можно с помощью поиска по текстовым фрагментам. Для этого необходимо ввести часть текста с сайта (пять-восемь слов, идущих подряд) в поисковую строку и заключить их в кавычки.

Пример поиска зеркала сайта по текстовым фрагментам

Список зеркал нужно закрыть от индексации, разместив в корне каждого из них файл robots.txt следующего содержания:

User-agent: * Disallow: /

В случае с доменными алиасами нужно настроить постраничный редирект 301 с дубля на соответствующий сайт.

Данный файл содержит набор директив, позволяющих управлять индексацией сайта. Например, указывать поисковым системам, какие директории сайта должны присутствовать в поиске, а какие нет.

В файле robots.txt закрывают от индексации служебные страницы:

Версии для печати.
Корзины товаров.
Авторизацию, регистрации, личные кабинеты.
Сортировки.
Страницы с UTM-метками.

Сервис Screaming Frog Seo Spider поможет определить, какие ещё страницы стоит исключить из индексации. В данном случае помогут фильтры по дублям метатегов title/h1/description.

Фильтр по дублям метатегов title/h1/description в программе Screaming Frog Seo Spider

Часто большая часть служебных страниц имеет дублирующиеся метатеги.

Ещё стоит выгрузить проиндексированные страницы сайта из сервиса «Яндекс.Вебмастер» и проверить, какие из них стоит исключить из индекса.

Проиндексированные страницы в «Яндекс.Вебмастере»

Одним из требований поисковых систем служат открытые для индексации файлы JavaScript и CSS, изображения. Определить список ресурсов, которые необходимо открыть для индексации, можно при помощи сервиса от Google.

Актуальные требования основных поисковых систем к файлу robots.txt можно найти в справочных «Яндекса» и Google.

Есть ещё несколько распространённых ошибок. Например, если проект разрабатывают с нуля или переделывают на тестовом домене (например, test.domain.ru или dev.domain.ru), то разработчики часто забывают закрыть тестовую версию сайта от индексации.

На текущий момент поисковые роботы не отличают тестовый домен от основного и считают его за дубль, что обычно ухудшает позиции основного сайта.

Пример тестовых версий сайтов в выдаче «Яндекса»

Тестовую версию сайта следует закрывать от индексации при помощи следующего набора директив.

User-Agent: * Disallow: /

Также распространена обратная ситуация, когда после разработки тестовую версию выкладывают на основной домен и забывают скорректировать содержимое файла robots.txt. Если сайт новый, то он не индексируется, а в случае редизайна пропадает из результатов поиска.

После переноса сайта с тестового домена на основной или завершения разработки всегда проверяйте содержимое файла robots.txt.

На текущий момент существуют такие средства отладки robots.txt:

Редактор в кабинете «Яндекс.Вебмастера». В него можно загрузить актуальный файл и проверить, какие директивы он разрешает или запрещает индексировать поисковым роботам.
Либо можно воспользоваться встроенным отладчиком сервиса Screaming Frog Seo Spider.

Дубли — точные копии страниц сайта, доступные одновременно по нескольким адресам.

Типичные примеры:

Со слэшем на конце: http://www.domain.ru/page1/
Без слэша на конце: http://www.domain.ru/page1
С index.html на конце: http://www.domain.ru/page1/index.html
С index.php на конце: http://www.domain.ru/page1/index.php
С использованием HTTP: http://www.domain.ru/
С использованием HTTPS: https://www.domain.ru/
С использованием строчных символов: http://www.domain.ru/
С использованием прописных символов: http://www.Domain.ru/

Варианты дублей могут варьироваться в зависимости от системы управления вашего сайта. От дублей нужно избавляться, и все страницы сайта следует привести к единому виду, например https://www.domain.ru/.

Выбор вида страниц для индексации зависит от того, насколько много страниц этого вида уже находится в индексе поисковых систем.

Для убирания дублей со всех остальных адресов страниц существует несколько способов (можно воспользоваться одним из них или скомбинировать несколько):

Настройте редирект 301 на конечный вид страницы.
Скорректируйте настройки сервера таким образом, чтобы при запросе дублей сервер выдавал код ответа 404 Not Found.
Закройте дубли страниц от индексации в robots.txt.

Для индексации важно, чтобы контент и основные ссылки на страницах были доступны при отключенном JavaScript. Тогда поисковые системы могут проиндексировать информацию на страницах полностью и правильно определить её ссылочный вес.

Существует два основных способа проверки работы сайта с отключенным JavaScript.

Если после отключения JS вы видите на сайте белый экран, это не значит, что сайт не работает при отключённых скриптах. Возможно, просто «поехала» вёрстка. Если после отключения JS на странице пропали важные элементы (карточки товаров, цены), стоит открыть исходный код страницы и при помощи поиска найти элементы по фрагментам текста.

Выясните, какой контент не выводится на странице и насколько это критично.

Иногда ошибка 404 обрабатывается некорректно и для несуществующей страницы выдаётся, например, код 200 Ok. В подобных случаях могут возникнут проблемы с индексацией страниц вплоть до того, что сайт полностью выпадет из поиска.

Так как сайты обычно состоят из шаблонов страниц, то для проверки корректной обработки ошибки 404 достаточно добавить метку test к каждой из страниц:

Главная: https://domain.ru/test/
Категория или подкатегория: https://domain.ru/catalog/category/test/
Страницы карточки: https://domain.ru/product/name-product/test/
Страница пагинации: https://domain.ru/catalog/category/page-test/
Служебные страницы: https://domain.ru/page/test/

А затем проверить код ответа для каждой страницы из списка в Screaming Frog Seo Spider.

Настройте сервер так, чтобы при обращении к несуществующей странице он выдавал ответ HTTP/1.1 404 Not Found без перенаправлений.

Проработайте страницу, выдаваемую пользователю при ошибке 404, так, чтобы она была информативной и имела ссылки на основные разделы меню и главную страницу сайта.

Далее мы разберём:

Скорость загрузки сайта.
Оптимизацию под мобильные устройства.
Страницы пагинации.
Битые ссылки и редиректы.
Микроразметку.
Использование тега meta name="robots" content="…".
Распределение ссылочного веса по страницам сайта.
Использование тега noindex, внутреннюю перелинковку и другие аспекты технической оптимизации.

Для погружения в тему технической оптимизации советую ознакомиться с чек-листом, опубликованным в блоге Texterra. Также рекомендую чек-лист от Collaborator в онлайне, который поможет фиксировать внесённые коррективы и оценивать проделанный объём работ относительного всех предстоящих задач.

#оптимизация

16 комментариев

Иван Вящиков

12.09.2019

Без воды и по делу. Продолжайте :)

Ответить

Nikita Tarasov

Спасибо, будет еще материал

Виктор Курганов

13.09.2019

Вопрос??

Если страницы корзины, авторизации, регистрации скрыты тегами NOINDEX, NOFOLLOW то их в файле robots.txt не надо скрывать?

Да -использование тега <meta name="robots" content="noindex, nofollow"/> аналогично запрету от индексации в robots.txt. За исключением того что при использовании meta robots с атрибутом nofollow - поисковые роботы не будут переходить по внутренним ссылкам, размещенным со страниц корзины, авторизации, регистрации