Коротко про Data-Driven для SEO или как получить структуру, семантику, точки роста сайта в пару кликов

Важно! Речь пойдет по сути про Data-Driven, но без примеров конкретного программного кода, библиотек и цифр аналитики.

Задача статьи состоит в ознакомлении с возможностями быстрого поиска точек роста в SEO без доступов к Метрике или CRM, использования платных сервисов. Что вообще можно ускорить и улучшить в SEO?

Data-driven ― подход управления данными, при котором их используют для принятия решений на каждом из этапов развития продукта.

В основе всех сервисов поискового продвижения парсинг и часто выгруженные данные по API с других сервисов для расширения функционала. Но, все это вы можете делать самостоятельно и гораздо больше.

Парсинг — получение определенных данных со страниц, чаще всего применяется для решения технических SEO-задач: поиска дублей заголовков TITLE-H1 и мета-тега DESCRIPTION, а также уникальности текста внутри сайта. Таких материалов в интернете полно, особенно с «Screaming Frog SEO Spider», поэтому про него писать не имеет смысла.

Именно страницы парсят чаще всего. Но что смотреть? Ссылки внутри нашей посадочной страницы, ну и конкурентов.

Если сайт только разрабатывается, то по классике смотрим общие группы пересечений конкурентов. А потом уже новое, что добавить можно.

Если сайт уже создан и нужен аудит, то смотрим недостающие группы страниц в сравнении с продвигаемым ресурсом, а также уникальные для сайтов (о них ниже). Это уже касается точек роста.

Скриншот как это может выглядеть (структуры сайтов группы «Пластиковые окна»). Но там очень много страниц ещё.

Новые страницы не всегда можно создать, так как чаще всего они связанны с новыми услугами, товарами, но иногда это дробление под интенты.

Вы можете не только получить структуру, но и запросы подставляя данные, например в wordstat.yandex.ru (или другой сервис который по API отдает списки запросов) и забирая результат. Запросы будут сырыми и нужно будет их ещё смотреть, но для быстрого анализа они более чем подойдут.

Важно! Анализировать можно не только структуру сайта, но и отдельные посадочные страницы. Внимание нужно уделять зонам с большой/низкой плотностью семантики, новым блокам, а не только пересечениям в топе.

Следующий этап это отзывы или UGC (User Generated Content), а именно контент созданный пользователями о вашем бизнесе.

А зачем их парсить? Это же не SEO вообще? Отзывы это обратная связь с клиента. Там много информации которую можно проанализировать.

Если сайт создается, то смотрим отзывы конкурентов.

Если сайт уже создан и нужен аудит, то смотрим текущие отзывы (их должно быть как можно больше для полноты картины). А ещё лучше будет проанализировать отзывы и конкурентов, особенно если при создании сайта этого никто не делал.

Фильтруем то что есть везде: дешево, недорого, быстро и т.д. Ищем то что можно использовать, например, окна стандартных размеров которые можно купить сразу и самостоятельно поставить для постройки дома. Или "ремонт окон" - диагностика с предложением замены, т.е. не всегда прямой интент, а косвенный.

Нас интересуют отзывы для УТП (Уникального Торгового Предложения) в контексте уникальности.

После 2-х прошлых этапов уже будет сформирована структура, запросы, УТП, блоки. Или новые точки роста для рабочего проекта.

Теперь используем всю эту информацию для добавления уникальности сайту.

Например по информационному запросу «заработок в интернете», такая уникальность:

Парсинг и прямое сравнение слов показало 50% использование общих слов, но это без учета использования синонимов.

Это связанно с тем что все используют одинаковую структуру, запросы, блоки и по сути тексты.

Reset2023

SEO

16 мая

Уникальность текста, сайта, а бизнеса? Маркетинг уже тут

Я не пропогандирую отказаться от семантики вообще, так как это не возможно, а максимально дополнить новой информацией сайт.

1) Вопросы-Ответы. Так как ответы пишутся именно от лица бизнеса они должны задать уникальность. В подготовке должны участвовать именно специалисты компании, чтобы писать из своего опыта.

2) Отзывы. Собственно о бизнесе от клиентов. Тоже в идеале должны добавить уникальности при условии, что они не состоят из пары общих слов. Писать должны именно клиенты, а не вы о себе.

Кому мало информации и нужны графики, то можно углубится в NLP, получить цифры и ещё значительно ускорить и автоматизировать обработку. Но, нужно будет глубже изучить Python, SQL для запроса данных с баз, библиотеки.

Natural Language Processing – программная обработка, анализ естественного (человеческого) языка.

Если кратко, то помимо парсинга страниц и очистки текста от неалфавитных символов, нужно будет выполнить токенизацию (разбиение на слова или отдельные предложения), затем лемматизацию (приведение к нормальной (словарной) форме), удаление стоп-слов.

Уже после этого произвести векторизацию текста. Алгоритмы машинного обучения не умеют работать напрямую с текстом, поэтому нужно цифровое представление в виде «Мешка слов».