Коротко про Data-Driven для SEO или как получить структуру, семантику, точки роста сайта в пару кликов

Важно! Речь пойдет по сути про Data-Driven, но без примеров конкретного программного кода, библиотек и цифр аналитики.

Коротко про Data-Driven для SEO или как получить структуру, семантику, точки роста сайта в пару кликов

Задача статьи состоит в ознакомлении с возможностями быстрого поиска точек роста в SEO без доступов к Метрике или CRM, использования платных сервисов. Что вообще можно ускорить и улучшить в SEO?

Data-driven ― подход управления данными, при котором их используют для принятия решений на каждом из этапов развития продукта.

В основе всех сервисов поискового продвижения парсинг и часто выгруженные данные по API с других сервисов для расширения функционала. Но, все это вы можете делать самостоятельно и гораздо больше.

Парсинг — получение определенных данных со страниц, чаще всего применяется для решения технических SEO-задач: поиска дублей заголовков TITLE-H1 и мета-тега DESCRIPTION, а также уникальности текста внутри сайта. Таких материалов в интернете полно, особенно с «Screaming Frog SEO Spider», поэтому про него писать не имеет смысла.

Что же можно проанализировать для SEO?

1) Структура и семантика

Именно страницы парсят чаще всего. Но что смотреть? Ссылки внутри нашей посадочной страницы, ну и конкурентов.

Если сайт только разрабатывается, то по классике смотрим общие группы пересечений конкурентов. А потом уже новое, что добавить можно.

Если сайт уже создан и нужен аудит, то смотрим недостающие группы страниц в сравнении с продвигаемым ресурсом, а также уникальные для сайтов (о них ниже). Это уже касается точек роста.

Скриншот как это может выглядеть (структуры сайтов группы «Пластиковые окна»). Но там очень много страниц ещё.
Скриншот как это может выглядеть (структуры сайтов группы «Пластиковые окна»). Но там очень много страниц ещё.

Новые страницы не всегда можно создать, так как чаще всего они связанны с новыми услугами, товарами, но иногда это дробление под интенты.

Вы можете не только получить структуру, но и запросы подставляя данные, например в wordstat.yandex.ru (или другой сервис который по API отдает списки запросов) и забирая результат. Запросы будут сырыми и нужно будет их ещё смотреть, но для быстрого анализа они более чем подойдут.

Важно! Анализировать можно не только структуру сайта, но и отдельные посадочные страницы. Внимание нужно уделять зонам с большой/низкой плотностью семантики, новым блокам, а не только пересечениям в топе.

Следующий этап это отзывы или UGC (User Generated Content), а именно контент созданный пользователями о вашем бизнесе.

2) Отзывы

А зачем их парсить? Это же не SEO вообще? Отзывы это обратная связь с клиента. Там много информации которую можно проанализировать.

Если сайт создается, то смотрим отзывы конкурентов.

Если сайт уже создан и нужен аудит, то смотрим текущие отзывы (их должно быть как можно больше для полноты картины). А ещё лучше будет проанализировать отзывы и конкурентов, особенно если при создании сайта этого никто не делал.

Фильтруем то что есть везде: дешево, недорого, быстро и т.д. Ищем то что можно использовать, например, окна стандартных размеров которые можно купить сразу и самостоятельно поставить для постройки дома. Или "ремонт окон" - диагностика с предложением замены, т.е. не всегда прямой интент, а косвенный.

Нас интересуют отзывы для УТП (Уникального Торгового Предложения) в контексте уникальности.

После 2-х прошлых этапов уже будет сформирована структура, запросы, УТП, блоки. Или новые точки роста для рабочего проекта.

Теперь используем всю эту информацию для добавления уникальности сайту.

3) Уникальные тексты

Например по информационному запросу «заработок в интернете», такая уникальность:

Парсинг и прямое сравнение слов показало 50% использование общих слов, но это без учета использования синонимов.
Парсинг и прямое сравнение слов показало 50% использование общих слов, но это без учета использования синонимов.

Это связанно с тем что все используют одинаковую структуру, запросы, блоки и по сути тексты.

Я не пропогандирую отказаться от семантики вообще, так как это не возможно, а максимально дополнить новой информацией сайт.

Важно!

Обязательно для уникальности используем универсальные блоки:

1) Вопросы-Ответы. Так как ответы пишутся именно от лица бизнеса они должны задать уникальность. В подготовке должны участвовать именно специалисты компании, чтобы писать из своего опыта.

2) Отзывы. Собственно о бизнесе от клиентов. Тоже в идеале должны добавить уникальности при условии, что они не состоят из пары общих слов. Писать должны именно клиенты, а не вы о себе.

Тут нет ничего про Data-Driven?

Кому мало информации и нужны графики, то можно углубится в NLP, получить цифры и ещё значительно ускорить и автоматизировать обработку. Но, нужно будет глубже изучить Python, SQL для запроса данных с баз, библиотеки.

Natural Language Processing – программная обработка, анализ естественного (человеческого) языка.

Если кратко, то помимо парсинга страниц и очистки текста от неалфавитных символов, нужно будет выполнить токенизацию (разбиение на слова или отдельные предложения), затем лемматизацию (приведение к нормальной (словарной) форме), удаление стоп-слов.

Уже после этого произвести векторизацию текста. Алгоритмы машинного обучения не умеют работать напрямую с текстом, поэтому нужно цифровое представление в виде «Мешка слов».

Прошлая моя статья про обновления в поиске:

55
36 комментариев

Чёт так косноязычно изложено, что пришлось 3 раза прочитать, чтобы вникнуть и в итоге время было потрачено зря.

4
Ответить

Упертый вы, я на половине текста плюнул...

2
Ответить

Тут коротко, но базовые моменты. Без модной генерации текста и готовых кнопок, скриптов.

Ответить

да вы что СЕО же давно умер))) или нет...

2
Ответить

А почему на заводы сейчас сложно устроиться? Потому что все места заняли SEOшники!

1
Ответить

Ну старого с сотнями ссылок и переспамом нет, осталось с накруткой ПФ. А так аналитика и маркетинг теперь в основе.

Ответить

Кто-то до сих пор продолжает дрочить на словоформы и высчитывать количество символов в абзаце)))

Тут один из клиентов ввалил в сайт 1.5 ляма, уникальные тексты по ашмановским методикам, уникальные фото, даже странички пагинации уникальные, но есть проблема - сайт уже год не может подняться выше 40 места в выдаче) Выше него сайты на готовых шаблонах с одинаковыми фото и вообще без текстов. Потому что давно уже поведенческие решают, а не тексты.

1
Ответить