Продавать мозги, а не руки: как в MOAB автоматизируют рутину в SEO

Семантическое ядро таких гигантов, как Ozon или Hoff, содержит сотни тысяч или миллионы запросов. Как собрать и почистить такую семантику всего за 10-15 часов? Ответ на этот вопрос — в большом техническом гайде с внутренней SEO-кухни MOAB. Все описанное читатель сможет повторить самостоятельно с минимальными усилиями.

Последние годы SEO переживает новый ренессанс: по сути, сейчас это единственный способ дотянуться до аудитории Google. Мы в MOAB тоже столкнулись со значительным ростом интереса к услуге, в первую очередь, со стороны крупного и среднего e-com — сейчас мы работаем с OZON, Эвотор, Hoff, VK Group, Divers.ru, Музторгом и многими другими.

Чем больше проектов — тем быстрее агентство утыкается в лимит по производительности. Работа есть — а сделать ее некем (про ситуацию на рынке труда в IT пояснять, наверное, не стоит).

Впрочем, плюс такой ситуации в том, что это — лучший стимул для автоматизации процессов. Фишка автоматизации также и в том, что она продает сама себя:

На пресейле продавцы всегда могут сказать: ну, вот мы тут ядро собрали между делом, посмотрите на файл, в нем 100500 запросов, заняло всего часов 5. Вау-эффект гарантирован: проверено.
На продакшене мы продаем мозги, а не руки: там, где конкуренты дают оценку в 50-100 часов для SEO-специалистов, мы просим 10-15 часов — но для разраба. Часы разраба дороже, но сумма — меньше, и это работает.

В этой статье мы расскажем, как мы автоматизировали работу с семантикой для крупных проектов.

На данный момент для сбора и очистки ядра размером в 50 или 100 тысяч фраз мы тратим от силы 10-15 часов рабочего времени.

Долго, дорого и скучно: как обычно работают с семантикой
Маски URL для быстрого сбора и очистки семантики: как это работает
Анализируем структуру URL конкурентов
Что дальше делать с масками
Практический кейс: сбор семантики для HOFF.RU
Сбор маркеров и хвостов
Сбор масок URL
Результат после сбора выдачи — Диваны
Использование масок для работы с товарными запросами
Как генерировать семантику своими руками
Нейро-SEO: реальность опережает прогнозы

Как выглядит типовой процесс работы с семантикой в агентстве?

В агентство приходит проект, и до начала работы нужно собрать семантику и построить прогноз трафика. Иногда у заказчика есть уже настроенный мониторинг позиций — и тогда нужно оценить, можно ли расширить эту выборку и много ли дополнительной частотности даст это расширение.

Все эти процессы — крайне трудозатратные: нужно собрать маркерные запросы, распарсить семантические хвосты, затем очистить их от мусора, и только потом можно что-то оценивать.

Если речь о пресейле — таким анализом не будет заниматься почти никто, прогноз просто «нарисуют» по оценке конкурентов в Spywords.

Если речь о работе после подписания договора, то здесь другая проблема — обычно бюджета не хватает на то, чтобы проработать все ядро, поэтому от него отрезают те или иные куски, тем самым снижая охват.

Нам в MOAB хотелось давать клиентам адекватные прогнозы и быстро собирать максимально полные сем. ядра — так, чтобы бюджет задачи был незначительным даже для малого и среднего бизнеса.

После нескольких экспериментов мы разработали методологию т.н. «масок URL», которую применяем для быстрого формирования больших пулов запросов в e-com.

Ниже мы расскажем о теории процесса на упрощенном примере, а затем покажем практический кейс.

Итак, представим, что ваш клиент — крупный ритейлер электроники, и перед вами стоит задача продвижения раздела «Смартфоны».

В процессе сбора семантики вам предстоит:

Собрать все маркерные запросы со словом «смартфон» и «телефон», брендовые маркеры (Xiaomi, Сяоми, ксиаоми, etc).
Убрать из массива запросы, не имеющие отношения к смартфонам (пример).
Убрать из массива некоммерческие запросы (пример).

Оставшиеся в массиве запросы будут отвечать нескольким условиям:

это запрос про смартфоны;
это коммерческий запрос;
запрос проходит нужный нам ценз по частотности.

Самое простое — частотность, тут все понятно. Но как автоматизированно выяснить, что запрос а) точно про смартфоны и б) коммерческий?

Для этого обратимся к структуре URL некоторых конкурентов, который ранжируются в этой тематике.

Запрос: [купить смартфон], Яндекс

Тип запроса: категорийный, безбрендовый

Ссылки из выдачи:

Запрос: [смартфон с беспроводной зарядкой купить], Яндекс

Тип запроса: категорийный, безбрендовый

Ссылки из выдачи:

Запрос: [купить смартфон xiaomi], Яндекс

Тип запроса: категорийный, брендовый

Ссылки из выдачи:

Запрос: [samsung galaxy s23 ultra купить], Яндекс

Тип запроса: товарный, брендовый

Что мы можем узнать из анализа данных серпов и URL в них:

Если запрос коммерческий — в выдаче будет ссылка на Маркет (Спасибо, Кэп!).
Структура URL значительного количества сайтов содержит повторяющиеся паттерны, которые мы называем масками. Мы можем отследить частоту встречаемости этих паттернов по тому или иному запросу, и затем сделать вывод о том, полезный этот запрос для нас или нет.

Во всех примерах ниже звездочка «*» означает любые символы.

OZON

Все категорийные URL OZON будут содержать ozon.ru*smartfon*. Товарные URL, однако, уже подходят под эту маску лишь в части случаев (товар подходит под маску, товар не подходит под маску, бренд, категория). Строго говоря, страница https://www.ozon.ru/category/samsung-galaxy-s23-ultra/ — это не совсем товарный URL, это листинг, но поскольку она ранжируется по товарному запросу, для упрощения будем именовать ее «товарной».

МВидео

Все URL МВидео, как категорийные, так и товарные, будут содержать маску *mvideo.ru/smartfon* (товар, бренд, категория).

DNS

К сожалению, структура URL не содержит повторяющихся паттернов.

Авито

Очень удобная для нас структура URL, которая, как вы увидите в дальнейшем, выручит нас там, где нас подвела структура URL Ozon. Содержит повторяющийся паттерн: *avito.ru*telefon* (категория, товар, бренд).

СберМегаМаркет

*sbermegamarket.ru*smartfon* маска повторяется в товаре, бренде, категории.

Ситилинк

*citilink.ru*smartfon* — подходит для товара, категории и бренда.

Эльдорадо

*eldorado.ru*smartfon* — подходит для товара, категории и бренда.

МТС

*shop.mts.ru*smartfony*, маска подходит под товар, категорию и бренд.

Samsung

*samsung.com*smartphon* (товар, категория).

Xiaomi

*mi-shop.com*smartphon* (товар, категория).

Маркет: здесь довольно интересный случай.

Наличие Маркета в выдаче Яндекса — один из самых точных признаков того, что запрос — коммерческий. В то же время ситуация осложняется тем, что однозначный паттерн не выявляется, скорее, их три:

*market.yandex.ru* — признак того, что запрос коммерческий;
*market.yandex.ru*telefon* — признак того, что это коммерческий категорийный запрос про смартфоны;
*market.yandex.ru*smartfon* — признак того, что это коммерческий товарный запрос про смартфоны.

На практике в последнее время Яндекс нередко показывает по категорийным запросам URLы Маркета вида search, что как раз и вынуждает нас учитывать самую общую маску типа *market.yandex.ru*.

В общем, суть ясна: в большинстве случаев сайты используют повторяющиеся паттерны URL, и мы можем этим воспользоваться. Можно было бы собрать маски по брендовым магазинам Huawei, Oppo, Vivo, Apple и других, но для упрощенного примера достаточно и того, что есть.

Мы составляем вот такую табличку:

Ссылка на Google Doc.

Здесь мы приводим для примера абстрактный файл про смартфоны, ниже разберем практический кейс с нашим клиентом — компанией Hoff.

Итак, мы собрали маски URL, которые могут появляться в выдаче по коммерческим запросам про смартфоны. Затем мы снимаем выдачу Яндекса (можно и Google, тут зависит от задачи), и смотрим, попадает ли та или иная маска в выдачу по конкретному запросу.

Если маска ozon.ru*smartfon* найдена в топ-10 — записываем значение «1», если нет — «0»:

В последнем столбце, как можно видеть в табличке, считается сумма вхождений. В грубом приближении — чем больше сумма, тем более «коммерческий» запрос и тем более вероятно, что он про смартфоны.

С практической точки зрения мы обычно применяем следующие фильтры:

Маркет = 1, это позволяет сразу надежно отсечь некоммерческие запросы:

Сумма вхождений: от «≥2» до «≥4»

Чем больше сумма вхождений — тем чище выборка.

Но чем чище выборка — тем больше вероятность отрезать «целевые» запросы.

Тут надо искать баланс вручную, исследуя то, как меняется суммарная частотность запросов, количество фраз и их чистота в зависимости от установленного фильтра. Если же страсть к исследованиям вам несвойственна — воспользуйтесь готовой рекомендацией:

4 или более вхождений масок в выдаче,
1 из вхождений — Яндекс.Маркет,
если в вашей тематике Маркет не ранжируется (авто, недвижка), то либо подбирайте такой же аналог, прибитый гвоздями в топе (Авто.ру, Циан), либо, чтобы перестраховаться, ставьте «5 или более вхождений масок в выдаче».

Вообще, методика масок URL лучше всего работает в конкурентных, охватных нишах, где выдача уже сформирована, есть устоявшиеся лидеры, а количество запросов измеряется десятками и сотнями тысяч.

Для HOFF.RU такая методика подходила идеально, поэтому было решено использовать ее на полную мощность. Расскажем о процессе по шагам.

Маркеры брали максимально широкие:

стол
стул
кресло
диван
кровать
тарелка
сервиз и так далее.

Затем собирали «все, что включено» из Wordstat в 2 уровня по указанным маркерам.

Всего получилось 168 маркеров и 762 000 «грязных» запросов.

Всего в базе масок 26 разделов, для каждого — 10-12 масок, «Диваны» — один из них.

Для некоторых сайтов используется несколько масок, например, в «Кухнях»:

*sbermegamarket.ru*kuhonnye-garnitury*
*sbermegamarket.ru*modulnye-kuhni*

Логика в этом случае такая: при нахождении любой из масок в выдаче по запросу, записываем в ячейку «1», даже если (что крайне маловероятно), будут найдены 2 маски по одному сайту — все равно записываем «1».

Самое интересное — пример финального файла.

Итак, всего в файле «Диваны» было 85 642 «грязных» запроса, собранных по маркеру «диван»:

После применения фильтров:

Маркет=1
Сумма>4

осталось 8750:

Можно видеть, что мусорных фраз в файле практически нет.

Суммарная частотка:

до: 813 320
после: 105 101

Общий результат: 55 209 коммерческих фраз по 26 разделам, трудозатраты — около 12 часов.

Впрочем, методика масок URL не ограничивается задачами сбора и фильтрации категорийных запросов. Одно из возможных применений — массовая генерация товарных запросов из XML-фида, методика разработана совместно с Виктором Репиным из OZON.

Процесс строится так:

Берем XML-фид с товарами.
Берем все слова из названия товара, строим все возможные комбинации фраз, содержащие 2 слова и более (в некоторых случаях можно ставить 3+). Как правило, получаем 5-15 вариантов фраз на товар, при желании можно добавить библиотеку транслитераций (samsung → самсунг).
Все полученные комбинации прогоняются через проверку масками (документ с масками по тематикам, пользуйтесь бесплатно, актуальность — около 8 месяцев назад).
Запросы, по которым более 3 вхождений разных товарных масок — очевидно, товарные.
На следующем этапе пробивается частотность в виде «!», убираются нулевки.
Итог — полностью автоматизированное получение очень обширного НЧ-ядра практически по любым товарам.

Стоит отметить:

Мы осознанно пробиваем сначала выдачу, а потом частотку: на больших объемах, с которыми мы работали в OZON (десятки миллионов фраз), это дешевле. Себестоимость съема выдачи ниже, поэтому проще сначала уменьшить размер списка, а потом снимать уже более «дорогой» Wordstat.
Нужно учитывать специфику ранжирования тех или иных масок при создании фильтров. Очевидно, что маска *avito.ru*telefon* будет реже встречаться по категорийным запросам, но чаще — по товарным.
При желании можно создавать «минус-маски», например, если вам надо исключить товарные запросы из массива, во многих тематиках страницам товаров свойственно использование *product*, *goods*, *item*.

Пример готового файла, сделанного по такой методологии для компании MUZTORG:

Математика там такая: из ~300 приоритетных товаров мы получили около 8000 комбинаций, после фильтрации осталось 323 «товарных» запроса.

Обычно авторы таких статей в разделе «Практическое применение» предлагают читателям учить Python или же использовать AParser/Zennoposter. Не умаляя всех достоинств этих способов автоматизации, отметим, что они сильно сужают круг тех, кто применит рекомендации в реальности.

Мы все же предпочитаем автоматизацию, максимально близкую к формату «одной кнопки»: зашел, нажал, получил результат. Поэтому мы сделали микросервис «Генерация запросов» в MOAB Tools.

Как его использовать:

Зарегистрируйтесь по ссылке, если у вас еще нет аккаунта.
Получите бесплатный баланс по инструкции или пополните баланс живыми деньгами.
Перейдите в сервис «Генерация запросов».
У сервиса 2 основных сценария:
- генерация товарных запросов из текстового списка названий товаров/XML-фида + дальнейшая валидация через заданные маски;
- валидация введенных запросов через заданные маски.
Документация к сервису лежит здесь.

Для тех, кто не любит читать документацию, мы подготовили небольшое видео с кратким описанием основных возможностей:

Скринкаст с описанием микросервиса «Генерация запросов»

Если начал говорить про автоматизацию в SEO — рано или поздно скатишься в обсуждение нейросетей. Порой кажется, что спекуляции на тему ChatGPT — один из самых эффективных способов собрать лайки на vc.ru для авторов, которых в других случаях просто не замечают.

Как широкое использование ИИ повлияет на SEO-индустрию: наша точка зрения.

Гайки закрутят.

Государства рано или поздно сделают маркировку генеративного контента обязательной, а отказ от маркировки — нарушением (в Китае уже готовятся запрещать). Владельцев нейросетей, вероятно, заставят вести реестр сгенерированного контента. Это позволит маркировать сниппеты и/или понижать в выдаче материалы без маркировки.

Качество контента возрастет.

Пресловутый EAT неслучайно превратился в EEAT. Еще одна «E» — это Experience. По сути, нейросети не создают новый контент — в зависимости от качества датасета, они формируют плохую или хорошую компиляцию на его основе.

В условиях засилья генеративного контента дополнительный бонус в ранжировании получат сайты, где будет уникальный по смыслу контент, объединяющий в себе информацию, которая до момента публикации существовала лишь в головах у экспертов в конкретной нише.

(нормальный) Контент станет дороже.

Это создаст дополнительные проблемы для малого бизнеса и вытеснит с рынка дешевых «копирайтеров» и «рерайтеров». Конкурентные экспертные тексты они не потянут, а писать простые технические тексты клиенты «наймут» нейросеть.

На их место придут серьезные редакции, умеющие работать с экспертами, разбираться в технических вопросах и структурировать информацию.

Безусловно, в выдаче будет много генеративного контента, в том числе тогда, когда он реально нужен для выполнения чисто технической функции — описания товаров, тексты «как варить пельмени» и «график праздников 2023». Но в то же время по запросу [деревянный дом под ключ проекты и цены] преимущество получит кто-то типа GoodWood, с контентом такого типа.

И это отличная перспектива.

Прозвучит парадоксально, но чем сложнее — тем лучше, чем дороже — тем лучше, чем больше препятствий — тем лучше.

ИИ убьет рерайтеров и сделает контент дороже? Отлично, у нас есть топовая редакция для создания действительно экспертных материалов.

Маркировка рекламы у блогеров грозит уничтожить рынок нативок? Не проблема, мы разобрались и уже продаем блогерам и заказчикам консультации по маркировке.

Чаще всего фискальные, регулятивные и технические ограничения — это решаемая проблема для профессионала и неразрешимое препятствие для новичка.

Если в бизнесе вы можете решить проблему за деньги — это не проблема, это возможность. Главное, помните о том, скольких конкурентов эта проблема убрала с вашего пути.

P.S. Редакция MOAB выражает глубокую признательность CMO Hoff.ru Виталию Шахматову за возможность поделиться данными по сбору семантики для проекта.

29 комментариев

Иван Зимин

03.06.2023

Илья, спасибо за статью, пара вопросов:
1) Зачем собирать продуктовые запросы? Вы же не оптимизируете отдельные карточки под них? Да и на большом екоммерсе соотношение трафика на листинги и товары по наблюдениям 9 к 1 примерно.
2) Вы говорите, что на пресейле показываете 100500 запросов собранной семантики, но показать просто много запросов не сложно - групповой отчёт в кейс.со сделать 10 минут, всё таки показываете кластеры и среднюю позицию или видимость по этой семантике? Но видимость по семантике не даёт гарантии, что все запросы целевые. В общем, вектор вопросов такой, буду благодарен за ответ.

Ответить

Илья Исерсон

1) Да и на большом екоммерсе соотношение трафика на листинги и товары по наблюдениям 9 к 1 примерно.

- не всегда, возьмите те же телефоны к примеру, или интернет-аптеки.
По товарным запросам, если они составляют значимую долю трафика, хорошо бы видеть реальную картину динамики позиций, чтобы принимать решения на основе данных, а без ядра это невозможно.

Кроме того, всегда можно взять 10-15% наиболее востребованных товаров, взять привязанные к ним запросы и, в зависимости от конкретной ПС, предпринять те или иные меры, дабы эти запросы встали в топ)
Да, зачастую трафика там не так много, как с листингов, но зато конверсия выше, а продвигать такие фразы - легче, чем листинги.

2) "Вы говорите, что на пресейле показываете 100500 запросов собранной семантики, но показать просто много запросов не сложно - групповой отчёт в кейс.со сделать 10 минут,"

- да, но там будет треть мусора, треть нецелевого, что толку?
Здесь фишка в том чтобы с минимальными трудозатратами собрать чистое целевое ядро, на основе которого можно

2.1 построить реалистичный прогноз трафика
2.2 показать клиенту разницу между тем, что есть сейчас (обычно там какие то 500-1000 фраз в работе у агентства) и тем, что может быть при нормальном подходе

Дредастый Колхозан

27.08.2023

Крутая статья. Подробно и по полочкам. Спасибо, узнал доя себя много нового. Читать приятно и комфортно!

MOAB

Автор

спасибо, рады что вам понравился наш материал)

Антон Меренков

02.06.2023

Спасибо за крутой кейс! Вопрос по кластеризации: явно вы так запросы не оставляете, а разбиваете их на группы.
1) С помощью какого сервиса?
2) Сколько времени на это уходит?
Просто в статье указано, что столько-то часов на семантику, но не отмечена кластеризация - значит еще нужны часы.

Антон, используем https://moab.pro/cluster/, добро пожаловать)
трудозатраты очень сильно зависят от конкретной выборки, проекта и так далее.
если память мне не изменяет, на 1000 рабочих часов получается от 70 000 и более чистых ключей, включая создание тегов, ЧПУ, подбор товаров в рамках инструментария на сайте клиента

т.е. по факту, это уже готовые к выгрузке теги, без текста.

один кластер это как правило 6-10 ключевых слов

Константин Добров

31.05.2023

Думаю ещё можно парсинг Яндекс Директа прикрутить а анализу семантики. Если есть платные объявления у конкурентов или товарная галерея - то запрос коммерческий.

Продавать мозги, а не руки: как в MOAB автоматизируют рутину в SEO

Долго, дорого и скучно: как обычно работают с семантикой

Маски URL для быстрого сбора и очистки семантики: как это работает

Анализируем структуру URL конкурентов

Что дальше делать с масками

Практический кейс: сбор семантики для HOFF.RU

Сбор маркеров и хвостов

Сбор масок URL

Результат после сбора выдачи — Диваны

Использование масок для работы с товарными запросами

Как генерировать семантику своими руками

Нейро-SEO: реальность опережает прогнозы