Микроразметка в SEO: от синтаксического поиска – к семантическому

Интернет меняется, а за ним – и средства продвижения. Рассмотрим эволюцию поисковых алгоритмов, и применительно к этому попробуем посмотреть на микроразметку как на средство семантического структурирования, а не привычный способ получить красивый сниппет.

Большинство сайтов представляет собой неструктурированные и не адаптированные для поисковых машин данные.
Извлечение, обработка, классификация и ранжирование данных с сайтов – ресурсоемкие процессы, требующие значительных вычислительных ресурсов.
Поисковые системы – коммерческие системы, подчиняющиеся вполне конкретным принципам монетизации. Любые затраты должны быть оправданными и окупаемыми.
Чтобы сайт хорошо ранжировался, он должен отличаться как минимум возможностью извлекать и обрабатывать контент с минимальными затратами для поисковой системы.
Один из способов сократить расходы на работу с контентом для поисковиков – структурирование представленных данных в понятном для машин формате.

А теперь рассмотрим основные термины, методы и способы адаптации сайта для современных поисковых систем.

Синтаксический поиск подразумевает поисковые алгоритмы, основанные на соответствии слов из запроса словам в документах, где проводится поиск. Учитываются частота вхождений, расположение ключевых слов и т.п.
В отличие от синтаксического поиска, семантический поиск основан на поиске информации по смыслу. В этом случае учитываются не ключевые слова, а информационный контекст и пользовательский интент (намерение и цель поиска).

Schema is important. I want to live in a world where structured data isn't that important anymore.
Гэри Ийеш, 2017

Поисковые системы ежегодно внедряют множество новых алгоритмов, которые так или иначе освещаются в соответствующих статьях. Думаю, вы много раз читали тексты об оптимизации под голосовой поиск, внедрении средств генеративных нейросетей, проработке структуры. Но что предлагается на практике? – Всё те же ключевые слова, «хороший» (это какой?) контент, удобство для пользователя. В общем, абстракции и добрые пожелания («Делайте ваш сайт лучше»).

Самая тёмная тема в SEO – это вопрос доступности и понятности сайта для поисковых роботов и алгоритмов. А отталкиваться надо именно от этого пункта.

Разберем историю развития поисковых алгоритмов с самого начала.

Интернет состоит из HTML-документов, которые можно охарактеризовать как визуальный веб. Это просто странички, которые предназначены почти исключительно для отображения на мониторах и дисплеях смартфонов. В рамках визуального веб машины не понимают, какая информация представлена на этих страницах, как они связаны между собой на самом деле. Для устранения этой проблемы использовались классические средства SEO: метаданные, ключевые слова и ссылки.

Оставим пока ключевые слова и ссылки и обратимся к метаданным. Метаданные можно определить как данные о данных. Их задача – описать информацию о заданном ресурсе: веб-странице, изображении или каком-то файле.

HTML-страницы должны содержать метаданные, позволяющие компьютерам понять, где начинается и заканчивается полезный контент, где размещены его основные элементы, каковы важнейшие характеристики этого документа, о чём этот контент. Возможности такой мета-разметки очень ограниченны:

Метаописания такого рода не могут содержать весь набор соответствующих документу ключевых слов.
Мета веб-страниц – возможно, самая «спамная» зона документа благодаря усилиям оптимизаторов.
Ключевые слова и описания в метаданных веб-страницы отображают скорее цели продвижения, чем реальный контент страницы.

В результате поисковые системы не могут полноценно использовать такого рода метаданные для целей информационного поиска и извлечения информации и периодически устраивают очередной «тайтлопокалипсис».

Семантический веб в отличие от синтаксического опирается на данные, которые могут вообще не использоваться браузерами, но используются для интеграции и интерпретации информационными системами. Классический вариант — это микроразметка. Микроразметка - это добавление тегов и атрибутов элементам HTML, благодаря чему поисковые системы и другие приложения могут лучше понимать содержание веб-страниц и сайтов в целом. Актуальный стандарт микроразметки (словарь Schema.org + синтаксис JSON-LD) позволяет максимально подробно представить необходимую семантическую структуру с иерархиями, связями и вспомогательными описаниями, понятными машинам.

Принятый в SEO подход до сих пор ограничивает смысл использования микроразметки сниппетами на поисковой выдаче. Благодаря микроразметке можно вывести в SERP дополнительный контент, заданные описания, рейтинги и многое другое – только чтобы увеличить кликабельность на выдаче. Но это далеко не все возможности, обеспечиваемые интеграцией микроразметки.

В классическом случае бизнес-данные хранятся во множестве форматов, используемых разными системами и базами данных. Чтобы решить проблемы интеграции, компании используют унифицированные решения (стандартом остаётся XML). Типичный пример – товарные «ленты», транслируемые с сайта в Яндекс-Бизнес или Google Merchant. Исходные «сырые» данные из таблиц, текстов и других источников извлекаются, конвертируются в XML и адаптируются для вывода на сайтах, сторонних сервисах, приложениях и т.п.

Однако речь всё ещё идёт о синтаксисе документов: XML не включает никакой информации, описывающей значение тегов и связей между ними, а для семантического поиска этого недостаточно.

Все данные можно условно разделить на три общие категории:

Неструктурированные
Полу-структурированные
Структурированные

Поисковые системы имеют дело с данными всех трёх типов, но изначально – с неструктурированными данными: это веб-страницы и медиафайлы (изображения, pdf, видео, презентации Power Point и т.п), размещенные в интернете. Информация в них представлена самая разная, и фактически не подчиняющаяся никаким правилам и спецификациям.

Данные такого рода не соответствуют структурам, используемым в базах данных, в том числе индексах поисковых систем. Фактически, данные такого рода имеют какую-то структуру – HTML-теги, например, но этого абсолютно недостаточно даже для их классификации.

Полу-структурированные данные подразумевают компоненты, благодаря которым их уже можно объединять в некоторые сущности. Сходные сущности можно группировать. Однако даже в рамках одной группы эти сущности могут не иметь общих атрибутов. В качестве полу-структурированных данных можно назвать, например, резюме. В каждом конкретном случае в резюме может содержаться предыдущий опыт работы, список каких-то достижений – а может и не содержаться. Их количество и порядок также может серьёзно отличаться от резюме к резюме.

Общий пример полу-структурированных данных представляет собой формат XML. Формат предусматривает метаданные и форматированный текст. В метаданных содержится информация об используемых тегах и общей структуре документа, и без этих данных приложения не смогут понять и спарсить контент этого документа. Товарные или новостные фиды, а также карты сайта sitemap.xml – пример полу-структурированных данных в рамках интернета.

Полу-структурированные данные не представляют контекста, только объекты и их связи

Структурированные данные описывают объекты в соответствии с чёткими атрибутами, организованными в упорядоченные записи (кортежи). Все кортежи имеют одни и те же поля. Данные сгруппированы в сходные сущности и организованы в понятную структуру с использованием связей или классов. Описания соответствуют единой схеме, в одном формате, с ограничением по объёмам, длине и т.п.

Структурированные данные используются в базах данных, включая и поисковые индексы, системы управления контентом, CRM и т.д.

Структурированные данные содержат информацию как об объектах, так и о типах связи между ними

Поисковые системы работают с изначально неструктурированной информацией, и в процессе сканирования и индексации структурируют данные для своих баз. Всё это требует значительных вычислительных ресурсов, измеряемых вполне конкретными деньгами.

Семантический поиск расходует намного больше ресурсов вычислительной системы в сравнении с синтаксическим, основанным на ключевых словах. Это главная причина более избирательного применения алгоритмов такого рода в сравнении с алгоритмами, основанными на синтаксическом поиске.

Для того, чтобы поисковая система сочла, что ваш сайт стоит регулярно обходить, скачивать информацию и тратить бюджеты для расчётов, должны быть вполне конкретные причины:

Ценность размещенного контента
Популярность сайта среди пользователей интернета
Авторитетность, выражаемая в том числе и объёмом ссылок с других авторитетных сайтов
Широкий пул запросов из заданной тематики (незачем тратить на сайт ресурсы, если сайт содержит слишком мало действительно ценных и полезных страниц)
Простота технических процессов, связанных со сканированием сайта
И последний, но не самый маловажный пункт – это структурирование контента, упрощающее процесс извлечения информации.

Рассмотрим последний пункт более подробно.

Итак, мы уже разобрались с основными типами представленной в интернете информации.

Неструктурированный, синтаксический веб имеет лишь два способа описать представленную информацию: метаданные и соответствие слов из запроса словам в документе.
Следующая стадия — это использование микроразметки, добавленной с помощью синтаксиса RDFa и XML. Это полу-структурированные данные. RDFa добавляет метаданные (атрибуты) к HTML-элементам страницы, но речь идёт об отдельных документах, не коллекции в целом.
Семантический веб, современная версия интернета, использует синтаксис JSON-LD. Его разберем более подробно.

JSON-LD (JavaScript Object Notation for Linked Data) — это стандарт кодирования связанных данных на основе JSON. Он используется для представления структурированных данных в вебе и их интеграции с другими данными. Основные преимущества JSON-LD:

Интеграция связанных данных. JSON-LD позволяет легко интегрировать данные с другими открытыми данными в сети по ссылкам. Это обеспечивает бóльшую связанность и обогащение данных.
Использование контекстов. В JSON-LD можно задавать контекст – словарь, определяющий семантику терминов. Это упрощает обработку данных.
Расширяемость. JSON-LD легко расширять за счёт вложенных объектов и массивов.
Удобочитаемость. Формат JSON удобен для чтения и редактирования.
Совместимость. JSON-LD хорошо интегрируется в веб-экосистему, поддерживается основными браузерами и серверами.

JSON-LD активно применяется при разработке информационных систем для представления SEO-данных, схем данных (Data Schema), структурированных профилей организаций, товаров в интернет-магазинах, а также для интеграции и обмена данными между разными системами.

Страницы сайта содержат более одного типа информации и множество объектов. RDFa (устаревший синтаксис микроразметки) даже со словарем Schema.org работает исключительно в рамках единственной страницы, без возможности иерархически структурировать данные всего сайта. Интеграция глобальной семантической схемы, способной увязать в единое целое все страницы сайта, способно упростить и улучшить понимание контента поисковыми системами.

Мало интегрировать структурированные данные в код страницы средствами RDFa. Да, лучше такая разметка, чем никакой: это машиночитаемый формат. Да, валидатор разметки на такой странице может не показать ошибок. Но в рамках семантической оптимизации этого совершенно недостаточно: вы должны создать онтологию, иерархическое описание связанных между собой объектов – так, как это могут понять поисковые системы.

Онтологии в информационных системах формально описывают какую-то предметную область:

Определяют иерархию понятий, их свойства и отношения.
Задают общую терминологию и семантику данных для совместного использования людьми и информационными системами.
Структурируют знания об объектах и процессах предметной области.
Размечают и аннотируют контент.
Объединяют в единую информационную систему данные из разных источников.

Применение онтологий способствует повышению структурированности знаний в информационных системах и обеспечивает машиночитаемое представление знаний предметной области.

Если онтология представляет собой схему, которой должны соответствовать данные, и информацию о связях между отдельными объектами, то граф знаний содержит конкретные данные. Оценивая контент сайта, поисковая система опирается на собственные графы знаний, объединяющих информацию о различных объектах, терминах, людях, фактах, местах.

Благодаря обнаруженным взаимосвязям поисковая система способна оценить контент, не опираясь исключительно на ключевые слова, предложенные пользователями метаданные и обнаруженные ссылки.

Акцент на взаимосвязях между объектами позволяет поисковой системе может представить более релевантные страницы выдачи по запросам. В этом случае поисковой системой сложнее манипулировать, а пользователю проще получить развернутую информацию в соответствии с интентом (пользовательским намерением).

Простой пример: в ранних версиях поисковых систем ничего не стоило подклеить какой-то запрос к заданному URL благодаря тексту входящих ссылок, метатегов типа keywords и т.п. Поисковые алгоритмы стали умнее и лучше защищены от спама: сейчас ключевое слово, не соответствующее контенту страницы, попросту не учтётся, даже если будет размещено в важной текстовой зоне, а в ряде случаев может сыграть в минус, если рассматривается как часть совсем другой тематики или домена знаний. Примерно так работает выбор тематики в сервисах поисковых систем: вы выбираете несоответствующую тематику – и поисковая система начинает предъявлять к вам требования, которым ваш бизнес вообще никак не соответствует.

Если раньше использование микроразметки ограничивалось задачами получения красивого сниппета на выдаче, а интеграция – добавлением метаданных, имеющих отношение к конкретной странице без объединения страниц в единый граф, то сейчас начинать работу нужно с создания собственного графа знаний.

Этот подход существенно отличается от традиционной работы с семантическим ядром.

Признанный устаревшим синтаксис RDFa, даже используя словарь Schema.org, не способен создать цельную семантическую структуру сайта, понятную машине. Такая разметка всего лишь выделяет на странице важнейшие поля и показывает поисковой системе, что представлено на странице, и какой тег содержит требуемые поля (название товара, бренд, артикул, цену, доступность, описание). Все данные вносятся непосредственно на каждую страницу, прямо в код, дублируя данные, и без возможности связать все данные по сайту воедино.

Вы давно видели в топах одностраничник? – Вот именно. Поисковой системе гораздо выгоднее держать под рукой какое-то количество хорошо прокачанных сайтов, где есть всё, чем рыться в бесконечной куче мусора в поиске виртуальных жемчужин.

Используя синтаксис JSON-LD, вы можете создать схему собственного бренда, где будут содержаться все необходимые детали, и ссылаться на эту схему в каждом отдельном товаре через URI.

Такой подход не только собирает воедино все данные:

Вы избегаете дублирования контента
Вносить правки при необходимости становится значительно проще: достаточно внести их в схему в одном месте
Расстановка акцентов: вы напрямую указываете поисковику, что представлено на странице, на что обратить внимание и что является наиболее важным
Вы предлагаете поисковой системе единую карту, сразу представляющую весь сайт – примерно так, как это реализовано в sitemap.xml, но в рамках семантики.

Но наиболее интересное прикладное применение Schema.org средствами JSON-LD – это возможность вписать данные сайта в общий граф знаний, используемый поисковой системой, помочь сопоставить представленные данные с уже известной информацией. Благодаря этому поисковой системе будет много проще оценить релевантность и авторитетность ресурса, оценить достоверность информации и технически упростить её извлечение.

Вложенность созданной вручную схемы в общую схему сайта позволяет отдельному компоненту получить свой контекст, не теряя связей с целостной структурой. Без этого смысл структурирования во многом утрачивается: такой подход не упрощает поисковику комплексное понимание контента сайта. Ошибочная интерпретация разметки поисковыми алгоритмами приводит к тому, что из всех возможных преимуществ внедрения микроразметки вы получите только две:

Красивый сниппет на выдаче
Устранение проблемы с нечеткими дублями в рамках сайта

Внедрять микроразметку только ради этого стоит в любом случае, однако это далеко не самое важное и перспективное применение структурирования данных для задач SEO.

Создание собственного графа знаний и его интеграция в общий веб-граф должна стать частью проектирования сайта. Вы делаете сайт не только для людей, но и для машин. Интегрировать разметку на работающий проект намного сложнее, чем делать сайт на базе предварительно разработанной структуры.
Подготовка семантического ядра. Традиционный подход основывается в основном на сборе реальных запросов из систем поисковой статистики. Такая практика фактически исключает работу с семантическим контекстом, усложняет работу с проработкой пользовательских интентов и никак не охватывает множество ключей, напрямую связанных с запросом. Поисковой системе много выгоднее привести пользователя на сайт, максимально закрывающий весь объём возможных запросов и намерений пользователя.
Онтологический подход способен полностью исключить возможные пробелы в семантике и увеличить тематическую авторитетность ресурса. Поисковые системы склонны обобщать запрос, исключая из него неважные с их точки зрения ключи, отдавая приоритеты ресурсам, где тема раскрыта максимально. Это касается как информационных, так и коммерческих сайтов.
Меняются методики продвижения. Например, внешние ссылки, используемые для подтверждения данных, можно смело перенести в сферу мета-ссылок, предназначенных только для машин. Таким образом вы просто объясняете поисковой машине, о чем тут идёт речь и чем подтверждаются представленные факты.
Формат представленного на сайте контента также неизбежно меняется. Нет смысла пытаться полностью раскрывать все возможные запросы в рамках одной гигантской статьи. Те практики контент-менеджмента и контент-маркетинга, которые ранее невозможно было реализовать чисто технически, могут теперь стать обычными. Пример – повторное использование контента: если поисковая система понимает, что речь идёт об объекте, имеющем уникальный URI – проблема дублирования снимается.

Определите все основные объекты, представленные в рамках сайта. Есть смысл начинать как от общего к частному, так и от частного к общему. Например, сначала выстройте общую структуру, начиная от представления собственного бренда. Затем начните прорабатывать объекты и их связи постранично, в соответствии с типом страницы. Не останавливайтесь на стандартных схемах, используемых конкурентами.
На следующем шаге определите соответствующие типы схемы для каждого узла (компания, веб-страница, список элементов, продукт).
Выстройте иерархию в рамках отдельной страницы, отталкиваясь от основного типа схемы.
Из полученных элементов начните выстраивать общую структуру данных в соответствии с иерархией и уровнями вложенности элементов.
Настройте мета-ссылки. Задача – увязать основные объекты в рамках сайта и найти связанные узлы семантического графа на внешних ресурсах, признаваемых поисковыми системами.
Отправьте полученную структуру в валидатор. Нет ошибок – внедряйте.

Собственно, по факту можно работать в обычных Notepad++, Excel или Google Docs. Однако можно несколько упростить рабочий процесс не менее доступным инструментарием.

В первую очередь рекомендую посетить официальный сайт https://json-ld.org/ – там вы найдёте много полезной информации, советы, руководства и отладчик кода.

Можно воспользоваться одним из генераторов JSON-LD. Их достаточно много, можно выбрать на свой вкус:

https://hallanalysis.com/json-ld-generator/
https://schemantra.com/
https://www.schemaapp.com/schema-paths/
https://classyschema.org/

Не забываем об инструментарии, разработанном специально для создания онтологий. Один из таких инструментов - https://protege.stanford.edu/. Это приложение было разработано как научный инструмент, работает с форматами RDF и OWL, может генерировать графы, экспортировать JSON-LD и т.п. Основная проблема – сложно разбираться, нужен некоторый уровень подготовки.

Интерфейс Protege – приложения для работы с онтологиями и графами

Хорошим подспорьем в работе остаётся привычный для многих XMIND, хотя речь идёт в основном о визуализациях структуры и связях между узлами графа. Экспортировать же данные в машиночитаемом виде в этом редакторе невозможно.

Не полагайтесь исключительно на «человекопонятность» своего сайта. Первая стадия любой поисковой оптимизации – это адаптация сайта для доступности для роботов и представление контента в машиночитаемом виде. Если поисковая система не сможет полноценно сканировать, скачивать и обрабатывать представленный на сайте контент, то не сможет его и полноценно ранжировать. А значит, люди просто этот контент в выдаче никогда не увидят.

Любая поисковая система – коммерческая. Это значит, что на сканирование, индексирование и ранжирование сайта тратятся кем-то реальные деньги. Тратить бюджеты на медленный, плохо структурированный сайт, не содержащий никакой ценной и уникальной информации поисковые системы не будут. Можно убедить их с помощью имитации интереса к сайту поведенческими ботами, или увеличить авторитетность ссылками – но и этого может оказаться недостаточно, если речь идёт о конкурентной среде, где все используют и ботов, и ссылки.

Внедрение семантической разметки в соответствии с рекомендациями поисковых систем сокращает затраты поисковых систем при работе с вашим сайтом, и открывает новые возможности для представления сайта в поиске:

Попадание в нулевой блок и «быстрые ответы»
Адаптация сайта для голосового поиска
Возможность получать трафик по более широкому пулу запросов
Увеличение тематической авторитетности и фактической ценности ресурса для поисковых систем

В настоящий момент возможности использования Schema.org в разных поисковых системах значительно отличаются. Поисковики продолжают использовать традиционные сигналы ранжирования: ключевые слова, возраст и авторитетность хоста, входящие ссылки, поведенческие сигналы. Это много дешевле для поисковой системы, чем использование сложных алгоритмов, требующих высокого расхода вычислительных ресурсов. Но объективно: их влияние снижается, и наступит момент, когда «вес» таких факторов ранжирования снизится до минимума.

Микроразметка – не фактор ранжирования, и никогда им не будет. Это лишь перспективный способ оптимизировать сайт в соответствии с развитием поисковых алгоритмов и инструмент, помогающий увеличить ценность сайта как для людей, так и для машин.

Микроразметка в SEO: от синтаксического поиска – к семантическому

Исходные тезисы

Почему эту тему стоит изучить

Визуальный и синтаксический веб

Основные типы данных в поиске

Преимущества структурированных данных

Микроразметка и структурирование объектов на сайте

Онтологии и графы знаний в информационных системах

Создание собственного графа знаний средствами JSON-LD

На что повлияет такой подход

Вариант реализации

Инструментарий

Заключение