Полуавтоматическая проверка релевантности выдачи ключам в поисковой выдачи Яндекса на Python
Всем привет! Сегодня обсудим один кейс, который часто встречается в работе специалистов по контекстной рекламе, а именно: проверка выдачи по маскам на этапе сбора семантики (масок-базисов), чтобы понять, релевантный это запрос для нас или нет.
Обычно ключевая маска состоит из объекта (предмета) + его свойства. Самые простые примеры: растение — его сорт, техника — его тип/артикул, автомобиль — марка и так далее.
Если мы будем использовать только пересечения, то мы рискуем упустить более высокочастотные маски, по которым тоже может быть спрос, но проверять это вручную в кейсах, когда нужно перелопатить от 1к масок (да даже 100 будет актуально), кажется очень трудоемким.
Поэтому и пришла идея, а что если мы будем искать ключевое слово по поисковому запросу, считать количество вхождений (упоминаний) этого слова в выдаче, и это будет метрика, которая позволит определить релевантность? От ручного труда (проверить нули и малое количество вхождений) это нас не освобождает, зато сильно ускоряет процесс.
Как пример использования:
Начнем как обычно с предподготовки:
САМ СКРИПТ
Скрипт состоит:
- input.csv — формат: ключ (что ищем); запрос (по какому поисковому запросу). Ключ учитывается в любой словоформе, включая окончания, единственное/множественное число, поиск будет по всем возможным сочетаниям.
- output.csv — ключ, запрос, вхождение (чем больше от нуля, тем больше встретилось слово, следовательно, более релевантно).
Разберем логику скрипта:
1. Для начала готовим список ключей, запросов, которые мы будем проверять.
Например, я хочу проверить вхождения для винограда, гвоздики, гортензии по названию сорта.
Виноград;Изумруд
Виноград;Монте кристо
Виноград;Муромец
Виноград;Нептун
Гвоздика;Бомбардир
Гвоздика;Роуз Стар
Гвоздика;Badenia
Гвоздика;Bombardier
Гвоздика;Maggie
Гвоздика;Rose Star
Гортензия;Долли
Гортензия;древовидная
Гортензия;Конфетти
Гортензия;Купить саженцы
Гортензия;Левана
Вставляем значения в input.csv
2. Устанавливаем все расширения для запуска скрипта, если есть ключ Антикапчи: ANTICAPTCHA_KEY = "", то вставляем его, но пока он не требуется даже на объемах в пару тысяч. Также проставляем значение региона region_code = 213 # Москва, коды можно найти:
3. Запускаем скрипт, далее он начнет открывать копию браузера и анализировать выдачу, чек-боксы с капчей будут нажиматься автоматически.
4. После завершения результаты будут в output.csv.
main;Query;Mentions
Виноград;Изумруд;0
Виноград;Монте кристо;0
Виноград;Муромец;0
Виноград;Нептун;0
Гвоздика;Бомбардир;0
Гвоздика;Роуз Стар;0
Гвоздика;Badenia;0
Гвоздика;Bombardier;0
Гвоздика;Maggie;0
Гвоздика;Rose Star;0
Гортензия;Долли;0
Гортензия;древовидная;10
Гортензия;Конфетти;0
Гортензия;Купить саженцы;0
Гортензия;Левана;3
Далее вручную пробегаемся по нулям, проверяем релевантность еще раз. Ключи с высокой релевантностью вы можете забирать в список масок для парсинга.
На этом все, пользуйтесь, ускоряйте свою работу.
Буду благодарен за любую обратную связь: лайк, шэр, подписка)