Полуавтоматическая проверка релевантности выдачи ключам в поисковой выдачи Яндекса на Python

Полуавтоматическая проверка релевантности выдачи ключам в поисковой выдачи Яндекса на Python

Всем привет! Сегодня обсудим один кейс, который часто встречается в работе специалистов по контекстной рекламе, а именно: проверка выдачи по маскам на этапе сбора семантики (масок-базисов), чтобы понять, релевантный это запрос для нас или нет.

Обычно ключевая маска состоит из объекта (предмета) + его свойства. Самые простые примеры: растение — его сорт, техника — его тип/артикул, автомобиль — марка и так далее.

Если мы будем использовать только пересечения, то мы рискуем упустить более высокочастотные маски, по которым тоже может быть спрос, но проверять это вручную в кейсах, когда нужно перелопатить от 1к масок (да даже 100 будет актуально), кажется очень трудоемким.

Как понять, артикул это в большинстве кофта, счетчик или шина?
Как понять, артикул это в большинстве кофта, счетчик или шина?

Поэтому и пришла идея, а что если мы будем искать ключевое слово по поисковому запросу, считать количество вхождений (упоминаний) этого слова в выдаче, и это будет метрика, которая позволит определить релевантность? От ручного труда (проверить нули и малое количество вхождений) это нас не освобождает, зато сильно ускоряет процесс.

Как пример использования:

Тут было 3к масок — сорта растений, которые нужно было проверить на соответствие этим растениям.
Тут было 3к масок — сорта растений, которые нужно было проверить на соответствие этим растениям.

Начнем как обычно с предподготовки:

САМ СКРИПТ

Скрипт состоит:

  • input.csv — формат: ключ (что ищем); запрос (по какому поисковому запросу). Ключ учитывается в любой словоформе, включая окончания, единственное/множественное число, поиск будет по всем возможным сочетаниям.
  • output.csv — ключ, запрос, вхождение (чем больше от нуля, тем больше встретилось слово, следовательно, более релевантно).

Разберем логику скрипта:

1. Для начала готовим список ключей, запросов, которые мы будем проверять.

Например, я хочу проверить вхождения для винограда, гвоздики, гортензии по названию сорта.

Виноград;Изумруд
Виноград;Монте кристо
Виноград;Муромец
Виноград;Нептун
Гвоздика;Бомбардир
Гвоздика;Роуз Стар
Гвоздика;Badenia
Гвоздика;Bombardier
Гвоздика;Maggie
Гвоздика;Rose Star
Гортензия;Долли
Гортензия;древовидная
Гортензия;Конфетти
Гортензия;Купить саженцы
Гортензия;Левана

Вставляем значения в input.csv

Полуавтоматическая проверка релевантности выдачи ключам в поисковой выдачи Яндекса на Python

2. Устанавливаем все расширения для запуска скрипта, если есть ключ Антикапчи: ANTICAPTCHA_KEY = "", то вставляем его, но пока он не требуется даже на объемах в пару тысяч. Также проставляем значение региона region_code = 213 # Москва, коды можно найти:

3. Запускаем скрипт, далее он начнет открывать копию браузера и анализировать выдачу, чек-боксы с капчей будут нажиматься автоматически.

Полуавтоматическая проверка релевантности выдачи ключам в поисковой выдачи Яндекса на Python
Полуавтоматическая проверка релевантности выдачи ключам в поисковой выдачи Яндекса на Python

4. После завершения результаты будут в output.csv.

main;Query;Mentions
Виноград;Изумруд;0
Виноград;Монте кристо;0
Виноград;Муромец;0
Виноград;Нептун;0
Гвоздика;Бомбардир;0
Гвоздика;Роуз Стар;0
Гвоздика;Badenia;0
Гвоздика;Bombardier;0
Гвоздика;Maggie;0
Гвоздика;Rose Star;0
Гортензия;Долли;0
Гортензия;древовидная;10
Гортензия;Конфетти;0
Гортензия;Купить саженцы;0
Гортензия;Левана;3

Полуавтоматическая проверка релевантности выдачи ключам в поисковой выдачи Яндекса на Python

Далее вручную пробегаемся по нулям, проверяем релевантность еще раз. Ключи с высокой релевантностью вы можете забирать в список масок для парсинга.

На этом все, пользуйтесь, ускоряйте свою работу.

Буду благодарен за любую обратную связь: лайк, шэр, подписка)

4
2 комментария