Как ускорить чистку запросов в Key Collector в 10 и более раз не пропустив ни один «мусорный» запрос?

При разработке рекламы в Яндекс Директ с большим количеством ключевиков, огромную часть времени отнимают их чистка. Иногда десятки тысяч ключей приходится просматривать и минусовать, а это ну очень нудная и рутинная работа.

У нас появилась острая необходимость повысить скорость разработки рекламы без потери качества. И в качестве объекта оптимизации мы выбрали именно чистку запросов, как, наверное, самый времязатратный процесс.

Проанализировав более 500 кампаний на поиске в различных нишах, мы обнаружили, что более 90% «мусорных» запросов можно убрать уже на этапе формирования кампаний, просто почистив три-пять самых высокочастотных запроса для каждого тематического направления. Зачастую было достаточно 2-3 запросов.

К чему мы пришли?

Вывод был очень прост, но до безобразия эффективен. Мы после формирования базовых запросов и сбора их частотности выбирали для каждого направления от 2 до 5 самых частотных и отличающихся формулировкой. Как правило, это запросы из 2-3 слов.

Далее, забивали в Key Collector эти ключи с использованием оператора "Кавычки", и дополнительно приклеивали любое из слов, уже находящихся в запросе, например, "строительство домов домов".

Теперь, запустив парсинг таких запросов, нам не приходилось ждать часами его окончания, буквально несколько минут и всё готово. На выходе получаем список запросов, в десятки, а то и сотни раз мЕньший в сравнении с парсингом всей семантики, а, значит, и время на чистку сокращается заметно.

Теперь по порядку...

Немного фактов про оператор «кавычки»

Оператор «Кавычки» фиксирует количество слов, а не сами фразы. Показ по запросам, содержащим фразу без дополнительных слов (https://yandex.ru/support/direct/keywords/symbols-and-operators.html).

Данные из справки Яндекс

То есть, если мы в сервисе WordStat запишем фразу в виде "слово1 слово2" («!купить диван»), то зафиксируется количество слов во фразе.

Данные Яндекс Wordstat

Если мы запишем фразу в виде "слово1 слово2 слово2", то запросы будет состоять из трёх слов и будут иметь вид: «слово1 слово2 + все возможные варианты слов, которые искали пользователи со словосочетанием «слово1 и слово2».

Например, "!купить диван диван". WordStat выдаст «купить диван +в», «купить диван Москва», «купить диван недорого», «купить угловой диван» и т.д.

Данные Яндекс Wordstat

Важно! При использовании кавычек, некоторые слова (например, местоимения) не попадают в выдачу.

Поэтому мы сформировали свой список «общих» минус-слов, которые в 99% подойдут для любой рекламной кампании в любой нише. В него входят:

  • слова, которые не показываются при использовании кавычек. Например, «это», «как» и др.
  • «некоммерческие» слова. Т.е. информационные фразы-маркеры, где пользователь явно не настроен на покупку. Например, «зачем», «отзывы», «характеристики», «плюсы», «минусы», «если», «или», «самому», и т.д.

Этот список можно скачать отсюда

Почему этот метод намного лучше классической чистки?

Очевидно, что спарсить и вычистить три-пять фраз намного быстрее, чем всю семантику. Это особенно ощутимо, когда в семантике тысячи и десятки тысяч запросов.

Давайте разберем на примере.

В семантике по ремонту стиральных машин 4 000 запросов (ремонт, сервис, все виды поломок, все марки и др.)

Проведём эксперимент: за сколько времени Key Collector спарсит 3 высокочастотных запроса в кавычках, а за сколько – всю семантику по ремонту стиральных машин.

Три самых высокочастотных запроса по тематике ремонта стиральных машин. «Ремонт стиральной машины на дому» не учитываем, т.к. эта фраза уже входит в «Ремонт стиральной машины». Поэтому берем фразы про «ремонт», про «мастера» и про «сервис».

А теперь сравним прогнозируемое время парсинга.

Парсинг трех высокочастотных запросов занял 4 минуты

Всего 4 минуты - и список для чистки готов. Вы даже чаю выпить не успеете, а уже пора продолжать.

Что же нам покажет вся семантика?

Парсинг всей семантики займёт примерно полтора дня

Полтора дня, Карл! Целых полтора дня ваш компьютер будет шуршать в поисках нового запроса.

И это еще далеко не самая широкая семантика. Представляете, что будет в "жирной" нише?

Очевидно, что метод с использованием "кавычек" значительно экономит как трудозатраты, так и конечное время на разработку. При этом, важно заметить, что при таком подходе вы не просто не теряете в эффективности и качестве формирования семантики и списка минусов, вы даже её повышаете.

Все мы знаем, что Wordstat показывает лишь 2000 фраз по запросу, очень часто этого недостаточно, поэтому приходится парсить вглубь. "Кавычки" позволяют даже для суперчастотных запросов получить фразы с частотностью вплоть до 1 показа. А это значит, что список минус-слов будет максимально полным, и показ объявлений будет осуществляться только целевой аудитории. Ну, конечно, не будем забывать и про значительную экономию бюджета за счет отсутствия кликов по нецелевым запросам.

Мы сами уже давно используем данный метод и чем дальше, тем больше убеждаемся в его супер удобстве и эффективности.

И напоследок

В данной статье мы решили не описывать полный алгоритм использования метода, но обещаем в ближайшее время выложить его, чтобы каждый смог оптимизировать свою работу.

Также в нашем арсенале есть ещё несколько полезных подходов к разработке и сопровождению рекламы, ими мы тоже как-нибудь поделимся.

0
46 комментариев
Написать комментарий...
Максим Пряник

Я могу подсказать, как ваш метод сделать ещё быстрее и еще эффективнее - используйте квадратные скобки и восклицательный знак вместе с ковычками! У вас "[!руки !из !жопы]", поэтому оставьте свои лайфхаки для внутреннего пользования.

Ответить
Развернуть ветку
UpFly
Автор

Максим, ваш комментарий нам понравился. Спасибо!
Теперь по существу:
1. У нас в статье нигде нет в кавычках квадратных скобок, но даже если бы и были, то это вполне нормально в некоторых случаях. Например, "билет [москва питер]". Ссылка на справку Яндекса есть в статье, ознакомьтесь внимательнее.
2. Кавычки, как мы и писали, фиксируют количество слов, но не порядок и словоформы. Поэтому восклицательный знак в кавычках совершенно органичен, если надо зафиксировать словоформу.
3. Нашими лайфхаками вы можете не пользоваться, т.к. они рассчитаны на аудиторию знающую и понимающую.

К сожалению, не каждый сможет воспользоваться нашими идеями. Но мы пошаговый алгоритм выложим в ближайшее время, возможно, ваше мнение поменяется.

Ответить
Развернуть ветку
Максим Пряник

Ступай сам почитай справку, ковычками ты режешь количество запросов и конкурируешь с такими же лентяями по высоким ставкам.

Ответить
Развернуть ветку
UpFly
Автор

Максим, мы не совсем понимаем чем мы заслужили негатив с вашей стороны?

Данный метод служит для поиска минусов, а не для формирования конечной семантики. В пошаговом алгоритме, статью о котором мы в ближайшее время разместим, чётко указано как затем парсить именно семантику, по которой будет показываться реклама.

Акцентирую внимание на том, что метод с использованием кАвычек - это подготовка к основному парсингу.
Забегая вперед, благодаря нашему подходу основная семантика также парсится во много раз быстрее и уже фактически в чистом виде.

Судя по вашим комментариям, вы просто не поняли суть нашей идеи и построили выводы неверно. 

Ответить
Развернуть ветку
Максим Пряник

Потому что по уму если твоей методе следовать надо парсить до 7 слов в кавычках, то ест от "ремонт стиральных машин" до "ремонт стиральных машин машин машин машин машин". Тогда СЯ будет полное, но и мусора будет больше. В итоге этот метод или чистка по группировке слов будет быстрее, непонятно.

Ответить
Развернуть ветку
UpFly
Автор

Вот это очень конструктивный комментарий.

В том и фишка, что не потребуется парсить "ремонт стиральных машин машин машин машин машин", а достаточно "ремонт стиральных машин машин". Суть в том, что в данном случае спарсятся все фразы из 4 слов, три из которых ремонт, стиральная, машина в разном порядке и словоформах.

На выходе мы получим список фраз (в большинстве случаев меньше 1000 штук) с частотностями. А самое интересное, что все спаршенные фразы - это базисные словосочетания для 5, 6, 7 и т.д. словных фраз. 

Тем самым мы получаем весь (иногда почти весь) список слов, которые пользователи вводят вместе с фразой ремонт стиральных машин. 

Частотности нам в этом парсинге не нужны (ну разве что для ориентира по объему заминусованных фраз).

Попробуйте сами, и вы увидите, как прекрасен мир. Для удобства, вот ссылка на Вордстат https://wordstat.yandex.ru/#!/?words=%22%D1%80%D0%B5%D0%BC%D0%BE%D0%BD%D1%82%20%D1%81%D1%82%D0%B8%D1%80%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85%20%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%20%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%22

Ответить
Развернуть ветку
Максим Пряник

Ну ты предлагаешь дальше парсить базисные запросы, я предлагаю сразу парсить все вариации в ковычках до 7-ми, в чем разница?

Ответить
Развернуть ветку
UpFly
Автор

Если парсить сразу, это часы и даже десятки часов. А несколько самых частотных базисных, несколько минут. 

После чистки формируется список минусов, который при основном парсинге базиса будет учитываться.  Соответственно, глубина парсинга сокращается в десятки, а то и сотни раз. Время парсинга также сократится, и сократиться значительно. 

Суть метода - это ускорение процесса чистки и формирования семантики. 

Ответить
Развернуть ветку
Максим Бакуменко

Спасибо за статью, попробуем. Редко увидишь что-то новое в старой теме)

Ответить
Развернуть ветку
Pavel Mukhunov

Идея то не плохая. Но я бы всё равно парсил отдельно всё чтобы сделать наиболее полный список минус-слов. А чтобы ускорить процесс нужно закупиться 10-20 проксями и аккаунтами директа.

Ответить
Развернуть ветку
UpFly
Автор

Павел, суть нашего метода как раз в том, что список минусов получается более полным, чем при классическом подходе.

Прокси и аккаунты если и ускорят процесс, то незначительно.

Плюс важный момент. Если очень глубоко парсить весь базис, может получится грязная семантика из многих сотен тысяч запросов, чистить их крайне муторно. В нашем случае даже в "жирных" нишах достаточно обработать несколько тысяч (может 10-15 максимум). Иначе говоря, объем парсинга и чистки уменьшается в десятки раз, а качество от этого не просто не страдает, а во многих случаях только улучшается.

Это не просто утверждение, мы проверяли.

Ответить
Развернуть ветку
Vyacheslav Teplyakov

про минуса
кто-нибудь коллекционирует варианты написания слова WildBerries? :))
я каждый раз когда думаю что уже, все, буквы кончились и их возможные сочетания, они изобретают что-то новое.

Ответить
Развернуть ветку
UpFly
Автор

В нашей практике был случай с минусацией фразы "трейд ин".. Сколько вариаций мы не добавляли, всегда появлялись новые: трындын, тырым дым, тындын..

И это писали реальные люди...

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
UpFly
Автор

Если не секрет, в чем?

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
UpFly
Автор

Вы молодец. Идею поняли абсолютно правильно от и до. 

Наш способ при должном подходе можно адаптировать под разные нужды. 

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Антон

Полезно, благодарю!

Ответить
Развернуть ветку
UpFly
Автор

Спасибо за комментарий.
Завтра планируем разместить пошаговую инструкцию, не пропустите.

Ответить
Развернуть ветку
Нельсон

Спасибо большое, нужно попробовать

Ответить
Развернуть ветку
UpFly
Автор

Владислав, спасибо вам.

Скоро выложим алгоритм

Ответить
Развернуть ветку
Александр Морин

 "Все мы знаем, что Wordstat показывает лишь 1000 фраз по запросу" - не ожидал) я вот уже на 30-й странице вордстата и фразы всё не заканчиваются, не находите это странным?)

Ответить
Развернуть ветку
UpFly
Автор

Спасибо за указание на ошибку.. разумеется 2000 фраз.

Как правило, не более 40 страниц по 50 запросов, но иногда бывает и больше, 42-42 страницы.

Ответить
Развернуть ветку
Александр Морин

Не понимаю смысла в целом. Берёте только трехсловники? Так минуса могут и в 4-х словниках оказаться. Берёте только избранные фразы? Так смысл такой чистки если у вас нет полной семантики. Ну 90% минусов вы найдёте и что, а остальное как? 

Ответить
Развернуть ветку
UpFly
Автор

К сожалению, или, к с частью, но действительно многие не до конца знают как работает вордстат в таком случае.

Если пойти от азов, то по запросу "пластиковые окна" мы получим список фраз, в которых есть слова пластиковые и окна в разных словоформах. Это известно всем.

Если мы закавычим запрос "пластиковые окна", то мы увидим только одну фразу, думаю, понятно какую.

Если же мы напишем в кавычках "пластиковые окна окна" или "пластиковые пластиковые окна", то получим список фраз, в которые есть слово пластиковые, слово окна и любое другое слово в различных словоформах и в различном порядке. При этом каждая из полученных фраз будет содержать в себе другие фразы из 4, 5 и т.д. слов.

По итогу мы получим список всех слов, которые пользователи забивают вместе с фразой "пластиковые окна". Фактически, новых слов в 4, 5 и т.д. словных фразах будет около 10%.

А вот как получить остальные 10% - это уже будет в следующей статье, скоро ее разместим.

Ответить
Развернуть ветку
Александр Морин

Ну, то есть пропарсив в глубину каждую фразу из 3 слов, вы всё равно получите полную семантику по запросу "пластиковые окна" и будете её чистить в полном объеме. В чём тогда экономия? 
И не каждую фразу вордстат будет показывать. Например "купить окна дешево" и "купить окна дешево сердито" он покажет, а "купить окна сердито" - например не покажет. Так что от 4-х и 5-ти словников тут точно не уйти.

Ответить
Развернуть ветку
UpFly
Автор

1. Да, парсить потом нужно будет в полном объеме весь базис, но уже с применением собранных минусов, что сократит объем парсинга в сотни раз.
2. Разумеется вордстат не покажет фразу "купить окна сердито", так же как и "купить окна дешево сердито", потому что показов 0. Если по фразе будут показы, то и в "пластиковые окна окна" покажет. Есть исключения для очень жирных запросов, где просто невероятное количество вариаций, но таких немного и даже их этот метод позволит выявить, если немного скорректировать алгоритм.

Ответить
Развернуть ветку
UpFly
Автор

1. Да, парсить потом нужно будет в полном объеме весь базис, но уже с применением собранных минусов, что сократит объем парсинга в сотни раз.
2. Разумеется вордстат не покажет фразу "купить окна сердито", так же как и "купить окна дешево сердито", потому что показов 0. Если по фразе будут показы, то и в "пластиковые окна окна" покажет. Есть исключения для очень жирных запросов, где просто невероятное количество вариаций, но таких немного и даже их этот метод позволит выявить, если немного скорректировать алгоритм.

Ответить
Развернуть ветку
Александр Морин

А, наконец-то я понял в чём идея. То есть если у вас будет инструмент, который оперативно спарсит "пластиковые окна" со всеми вложенными, а потом позволит удобно работать с минусовкой, по сути это решит проблему?

Ответить
Развернуть ветку
UpFly
Автор

Да, а инструмент - это Кей Коллектор. Более детальная информация, как и писал ранее, будет чуть позже размещена.

Ответить
Развернуть ветку
Александр Морин

Не, я имею в виду если у вас будет более крутой инструмент, который за секунды соберёт всю вложенку по "пластиковым окнам", то в принципе вопрос решится и всё это уже будет не нужно.

Ответить
Развернуть ветку
UpFly
Автор

В принципе наш метод совершенно необязателен для использования. Разработан он с целью сокращения времени на чистку и парсинг базиса. А время сокращается за счет разделения на 2 этапа: Парсинг для чистки и Парсинг базиса. Каждый из этапов при правильном подходе сокращает количество обрабатываемой информации в десятки, а то и сотни раз.

Поэтому, если вы хотите крыжить сотни тысяч запросов, то можно собрать сразу всю семантику и работать с ней. Мы предпочитаем чистить не более 10 000 - 15 000 фраз.

Ответить
Развернуть ветку
Дмитрий Солоп

Актуально только для тех, кто парсит с помощью КК, имея на борту горстку аккаунтов. Сторонние крупные сервисы таких проблем не имеют, и 4-5 тыс. запросов парсятся за 5 минут.
Но, в целом идея здравая, спасибо.

Ответить
Развернуть ветку
UpFly
Автор

Дмитрий, согласен, что есть сервисы, которые позволяют делать всё намного быстрее. Этот метод именно для Кей Коллектора.

Но, 4-5 тыс запросов после парсинга превращаются в сотни тысяч запросов, чистить которые ну очень долго.

В принципе же наш способ можно адаптировать к различным инструментам, если приложить голову и опыт. И даже быстрый парсинг можно еще ускорить.

Ответить
Развернуть ветку
Павел Романовский

Спасибо за ценную статью. Кто не понял смысла, его проблемы 

Ответить
Развернуть ветку
UpFly
Автор

Спасибо и вам. Мы всё-таки попробуем раскрыть все премудрости идеи. 
Основная проблема - это недостаточный уровень базовых знаний. А без него действительно может быть сложно понять смысл

Ответить
Развернуть ветку
Феликс Неботов

Спасибо за метод, интересный вариант для запуска в сжатые сроки! Мне кажется, что есть один минус такого подхода, это может привести к избыточной минусовке и сужению охвата.

Пример: ”квартира квартира москва”, получим квартира москва ремонт, а ремонт может быть в двух контекстах: ремонт в квартире в москве и квартиры с ремонтом в москве. Второй вариант подходит для семантики в недвижке, а первый нет.

Т. е. зачастую парсинг полной выдачи дает мне увидеть все вариации использования ключа в разных контекстах, а когда контекст ограничен 3-мя словами, то можно легко заминусовать полезные запросы. Поэтому стараюсь всегда парсить всю выдачу до частоты в 10-15 показов.

Ответить
Развернуть ветку
UpFly
Автор

Да, очень хорошее замечание.

Во время чистки периодически выскакивают слова, которые с ходу сложно соотнести - берем или минусуем. Именно поэтому все наши разработчики перед формированием базиса и, соответственно, чистки и всего прочего изучают нишу.

Любое сомнительное слово проверяется, например, в том же Вордстате. Как показывает практика, таких сомнительных слов встречается мало. Разумеется, есть ниши, где таких слов почти через одно, но и с этим можно работать, если изначально базис сформирован корректно и ниша изучена.

Вообще, правильная базисная семантика - это уже пол дела.

Ответить
Развернуть ветку
Александр Хитро

в эру синонимичных типов соответствия поисковых запросов и в гугле, и в яндексе вы решили сэкономить пару часов времени на парсинге и чистке, чтобы рекламодатель после вашей охуительной работы выгребал гигатонны синонимов, которые вы тупо не соизволили отминусовать. это гениально! ебанём-ка мы статью на vc!

Ответить
Развернуть ветку
UpFly
Автор

Мы не знаем как комментировать ваше громкое заявление, потому что оно никакого отношения к статье не имеет. 

При внимательном прочтении и должном уровне опыта в разработке ваша мысль даже возникнуть не может. То, о чем вы пишите, устраняется на этапе формирования базисной семантики и ее прасинга после чистки. И устраняется легко и непринужденно

Какое отношение формирование базиса имеет к конкретно нашей идее - загадка.

С другой стороны, мы не навязываем свое мнение. Те кто понял идею, понял каким образом ее применять, у того всё будет хорошо. Кому-то, видимо как и вам, удобнее по старинке. Что ж, коллега, выбор ваш!

Ответить
Развернуть ветку
EveryStraus _

Интересный приём для знакомого инструмента, обязательно попробуем.

Ответить
Развернуть ветку
UpFly
Автор

Попробуйте, реально работает на ура!

Ответить
Развернуть ветку
Денис Голуб

А можно еще проще, запустив за время работы 10-15 проектов с нуля, понимаешь, что можно сохранять в отдельных файлах используемый семант + минуса к нему, последние можно еще и пополнять на основе работы РК, и тогда не в одной нише (только если для всего агентства она не нова) не будет нужды собирать сотни тысяч ключей, более того, собирать сотни тысяч ключей так то вообще не комильфо. А дальше для обновления ядра можно просто сделать пересбор ключей по самому широкому  добавив в минуса  список минусов и уже имеющуюся семантику, тем самым получив только недостающие запросы. 
А если есть деление на направления рекламы, например отдельно финансы, отдельно фарма и отдельно недвижка, то все это еще проще так как библиотеки можно делать только  в рамках  отдельного направления.  и  тогда необходимость подобных мучений не нужна. 
Что касательно чистки, то скажу так при наличии некоторого опыта и логики, и умения пользоваться фильтрами и выделением цветом и разделением по столбцам, 6к ключей чистятся на 90% минут за 15 в екселе, а остальное как и в вашем случае методично вычищается(ну это если прям хардкорить)

Ответить
Развернуть ветку
UpFly
Автор

В целом вы правильно говорите, только если у вас есть эти списки, т.е. вы уже работали в этой или схожей нише. Так же учитывайте, что от региона могут серьезно зависеть и наборы минусов.

Описанный вами подход действительно вполне рабочий, больше скажу, для быстрого старта он близок к идеальному, но вот сопровождать такие проекты, как правило, тот еще геммор + бюджеты могут улетать знатно. Разумеется, от нише к нише всё меняется, но в среднем так и будет.

Небольшой комментарий по чистке за 15 минут 6к ключей. Если каждый ключ содержит хотя бы одно уникальное слово - то за 15 минут в экселе вы этого не сделаете, даже используя все возможности программы. А в намшем случае ситуация примерно такая и есть.

Ответить
Развернуть ветку
Александр Буряк

Отличный метод!

Как и "Важный мангал", я пользовался до последнего времени чисткой в Excel, причём, очень быстро (пусть не 15 минут, но за 30-60 минут вычистить хоть 6к, хоть 26к ключей реально, используя богатый функционал Excel, а не только "построчный просмотр" и "поиск по словам с выделением").

Также перед "большим парсингом на всю глубину в КК", я всегда предварительно (за 10-20 минут) собирал до сотни мусорных слов (вручную визуально из первых 3-5 страниц выдачи Вордстата).

Но ваш метод в целом - это круто. Это ЭЛЕГАНТНО!!! И это всего лишь за счёт более глубокого знания механизма Вордстата и использования эффективных алгоритмов работы (вместо прямолинейной закупки 20-30 прокси для КК).

Ребята, вы умницы и гении. Замечательные практики и профи.

Я - "ленивый" директолог. В Директе 12 лет. Много не зарабатываю, но 50-100 т.р. в месяц при работе 6-12 часов в неделю получается легко (больше денег не надо, но больше работать не хочу). И ваша подсказка однозначно будет в моём арсенале.

Ответить
Развернуть ветку
43 комментария
Раскрывать всегда