Теперь, запустив парсинг таких запросов, нам не приходилось ждать часами его окончания, буквально несколько минут и всё готово. На выходе получаем список запросов, в десятки, а то и сотни раз мЕньший в сравнении с парсингом всей семантики, а, значит, и время на чистку сокращается заметно.
Я могу подсказать, как ваш метод сделать ещё быстрее и еще эффективнее - используйте квадратные скобки и восклицательный знак вместе с ковычками! У вас "[!руки !из !жопы]", поэтому оставьте свои лайфхаки для внутреннего пользования.
Максим, ваш комментарий нам понравился. Спасибо!
Теперь по существу:
1. У нас в статье нигде нет в кавычках квадратных скобок, но даже если бы и были, то это вполне нормально в некоторых случаях. Например, "билет [москва питер]". Ссылка на справку Яндекса есть в статье, ознакомьтесь внимательнее.
2. Кавычки, как мы и писали, фиксируют количество слов, но не порядок и словоформы. Поэтому восклицательный знак в кавычках совершенно органичен, если надо зафиксировать словоформу.
3. Нашими лайфхаками вы можете не пользоваться, т.к. они рассчитаны на аудиторию знающую и понимающую.
К сожалению, не каждый сможет воспользоваться нашими идеями. Но мы пошаговый алгоритм выложим в ближайшее время, возможно, ваше мнение поменяется.
Спасибо за статью, попробуем. Редко увидишь что-то новое в старой теме)
Идея то не плохая. Но я бы всё равно парсил отдельно всё чтобы сделать наиболее полный список минус-слов. А чтобы ускорить процесс нужно закупиться 10-20 проксями и аккаунтами директа.
Павел, суть нашего метода как раз в том, что список минусов получается более полным, чем при классическом подходе.
Прокси и аккаунты если и ускорят процесс, то незначительно.
Плюс важный момент. Если очень глубоко парсить весь базис, может получится грязная семантика из многих сотен тысяч запросов, чистить их крайне муторно. В нашем случае даже в "жирных" нишах достаточно обработать несколько тысяч (может 10-15 максимум). Иначе говоря, объем парсинга и чистки уменьшается в десятки раз, а качество от этого не просто не страдает, а во многих случаях только улучшается.
Это не просто утверждение, мы проверяли.
про минуса
кто-нибудь коллекционирует варианты написания слова WildBerries? :))
я каждый раз когда думаю что уже, все, буквы кончились и их возможные сочетания, они изобретают что-то новое.
В нашей практике был случай с минусацией фразы "трейд ин".. Сколько вариаций мы не добавляли, всегда появлялись новые: трындын, тырым дым, тындын..
И это писали реальные люди...