Как решить проблему парсинга Wordstat в Key Collector

Статья о наболевшем у многих за последние недели. Суть в том, что Key Collector перестал адекватно парсить Wordstat, то есть выполнять свою основную функцию. Парсинг даже с прокси затягивается сейчас на десятки а то и сотни раз и из пары часов превращается в неделю. Но я расскажу вам о решении всего за 300 рублей.

Такие ошибки сыпятся постоянно. На вопрос: "Что делать?", техническая поддержка КК говорит: "Смотрите многочасовые видео Ожгибесова по настройке, возможно что-то и найдете", хотя проблема гораздо глубже.

Прокси тоже помогают с трудом, а чтобы нормально собирать семантическое ядро даже маленькому агентству, необходимо закупить с десяток мобильных приватных прокси на 50к.

Перейдем к основному - ссылка на сервис сбора статистики Wordstat

Самое классное, что в нем можно использовать все те же операторы, что и в КК (предварительно разбивать на группы, плюсить и минусить и т.д.), а после парсинга, который проходит за секунды, вы можете выгрузить документ для Key Collector и продолжить редактирование в привычном интерфейсе.

Ставь лайк, если тоже успел потратить кучу времени и денег на другие малоэффективные решения.

0
18 комментариев
Написать комментарий...
Артем Акулов

Лечится легко. Нужно отбелить акк и ip с которого идет парсинг. В настройках ставим браузерный обработчик и режим отладки. Во время отладки смотрим, чтобы авторизация прошла успешно. После чего оставляем браузерный обработчик, а отладку выключаем. Всё работает как и раньше.

Ответить
Развернуть ветку
Michael

что только не пробовал https://disk.yandex.ru/d/p8w61tMVRvDFwg перестал софт нормально работать

Ответить
Развернуть ветку
Алексей Переверзев
Автор

Здесь есть ограничение, при использовании прокси - только http. Ну и при парсинге тысяч запросов устанешь обелять. Просто попробуйте в триале и сами поймете, что все эти танцы с бубном лишние.

Ответить
Развернуть ветку
Артем Акулов

За день напарсил 50к запросов для магазина. Никаких проблем. Прокси нет.

Ответить
Развернуть ветку
Алексей Переверзев
Автор

Очень везет. Но у нас кейсы противоположные. Мы неделю всей командой искали выход, пробовали различные способы, в том числе и этот и более модифицированный, с проксями. Все к одному приводило. По комментам КК и у Ожгибесова вижу, что данный способ тоже у многих не сработал. Пока прокси чистые, а аккаунты новые - все работает, но уже через несколько десятков тысяч фраз льются ошибки все с большей частотой.

Ответить
Развернуть ветку
Чайка О.

У меня не так. Купила 5 прокси и 5 акков, связала их; начинаю парсить – акки вылетают/появляются ошибки. Захожу в браузере в каждый акк через связанный прокси, шебуршу немного; проблем становится меньше. По разу на каждом акке применяю браузерный режим. Далее чем дольше работаю, тем меньше проблем.

Ответить
Развернуть ветку
Алексей Переверзев
Автор

Ну я и говорю, что при использовании метода из статьи не нужно танцев с бубном. Всего 300 рублей в месяц и вообще никаких проблем и ошибок.

Ответить
Развернуть ветку
Чайка О.

Проверим )

Ответить
Развернуть ветку
Таисия Сурмина

Вот просто спасибо! Большое и человеческое. Надоело вокруг КК с бубнами плясать. Ведь это же всё время. Тут заплатил 300р, 15 мин и всё, можно работать. Конечно, пост рекламный, не спорю, но мне инструмент подошел. В конце концов, напарсил, в КК загрузил и чисти себе запросы спокойно. Надо будет потом с Word keeper поразбираться, что у них там в инструментарии и прочее.

Ответить
Развернуть ветку
Виктор Петров

Статейка явно рекламная, да ещё и без ссылки.
Но по факту: а KeyCollector-то вообще сейчас нужен, чтобы ключи из "Вордстата" парсить? Я вот прихожу к выводу - что уже и нет.
Для Google инструмент был бесполезен всегда, а в Яндексе сама логика не работает примерно с полгода.
а) сама база наглухо забита накрученными нулевками;
б) кластеризация по этой базе тоже ведёт прямиком к накрученным сайтам-пустышкам;
в) Яндексу откровенно плевать на вхождения как таковые, так что выяснять, какой "хвост" принесет трафик и в каком объёме - так себе сейчас занятие.

Ответить
Развернуть ветку
Чайка О.

Где-то заплакал собиратель СЯ.

Ответить
Развернуть ветку
Виктор Петров

СЯ-то никуда не девается. Просто меняется процесс работы.

Ответить
Развернуть ветку
Misha Mann

А как вы собираете? Можете написать тезисно?

Ответить
Развернуть ветку
Виктор Петров

Исхожу из того, что приоритет Яндекс отдаёт не оценке документа, а коллекции, графу. Сама по себе страничка, даже хорошо оптимизированная, особого веса уже не имеет - оценивается нода (узел) и её окружение. Коммерческие метрики Яндекс оценивает на уровне текстового анализатора, а остальное решает ПФ.
В общем, типовая структура плюс средства анализа векторной семантики с оценкой по актуальному корпусу. Для оценки можно использовать одно из многочисленных готовых решений (хоть word2vec, хоть его аналоги), для сопоставлений - топовый корпус.
Это, в общем-то, быстрее и грубее, просто потом про валидацию не надо забывать. Нет смысла ковырять "хвосты" постранично, важнее их совокупность.

Ответить
Развернуть ветку
Чайка О.

С подходом, в целом, согласна. Но не уверена, что парсинг Вордстата бесполезен во всех нишах.

Ответить
Развернуть ветку
Виктор Петров

Дык. Куда деваться-то - любой источник ценен, если объективно. Но вот дичайше меня напрягает, что в выдаче в топах сайты, чьи посадки ну вот никак не под запрос.
Сломалось что-то в Яндексе со всеми этими трансформерами, на ключи он уже плюёт, а что учитывает - бог весть. Интенты? Набитые ПФ по предыдущей истории и паттернам? Обработку естественного языка? Или просто у него весь выбор на любой запрос - либо Маркет, либо "Ванднелбернис" с "Мерли Мерло", либо "Вики" с "Ютубом"

Ответить
Развернуть ветку
Чайка О.

Видимо, мне везло с проектами :) Вполне адекватная выдача. Но это не e-com.

Ответить
Развернуть ветку
Piter Online

Если вы не против, поправлю вас, цена сервиса уже 399 руб.

Ответить
Развернуть ветку
15 комментариев
Раскрывать всегда