{"id":13952,"url":"\/distributions\/13952\/click?bit=1&hash=9ac889dfd034bf8012cd9446ea03211d2ddbf36aa2feeecfc0e178d57667b555","title":"\u042d\u043a\u0441\u043f\u0435\u0440\u0438\u043c\u0435\u043d\u0442: \u043f\u0440\u043e\u0434\u0430\u0442\u044c \u0432 \u0440\u0435\u0433\u0438\u043e\u043d\u0430\u0445 \u0442\u043e, \u0447\u0442\u043e \u043d\u0435 \u043a\u0443\u043f\u0438\u043b\u0438 \u0432 \u041c\u043e\u0441\u043a\u0432\u0435","buttonText":"\u0410 \u0440\u0435\u0437\u0443\u043b\u044c\u0442\u0430\u0442?","imageUuid":"190b7c8a-7d08-5d72-9c1d-d5f4695e3d63"}

Бесплатно собрать данные: расширение от iDatica

Привет! Мы сделали простое и бесплатное расширение для сбора данных с сайтов. Зачем и что в нем уникального? Сейчас расскажу.

Начну, как водится, издалека. Я работаю в компании, которая занимается сбором данных в «промышленных масштабах», это миллионы собираемых данных, парсинг приложений и динамическое содержимое, прокси, постобработка, обход капчи, мониторинг качества, бэкапы, вот это вот все. И да, для масштабных задач все еще не придумали универсальный инструмент, не стандартные требования = кастомная разработка. Но, вместе с тем к нам обращаются и не крупные заказчики, основной кейс которых — разовый парсинг какого-либо каталога или определенной категории на сайте.

Со временем появилось понимание, какая функциональность парсера поможет решить большинство подобных задач. И мы решили сделать бесплатный инструмент, который позволит решать такие задачи.

Зачем же делать парсер, если в сторах браузеров можно найти расширения с похожим функционалом? Потому, что найти расширение, которое бы просто решало задачу и было более-менее универсально для базовых задач оказалось не просто (к слову, мне это не удалось сделать).

Часть из них работает в режиме no code, само пытается определить повторяющиеся блоки данных на странице, но как только попадается крупный интернет-магазин с не очевидной структурой – данные «едут» или расширение уходит в цикл поиска значений, из которого не возвращается. Часть расширений предоставляют минимальный функционал – дальше за деньги или вовсе являются оболочкой коммерческого сервиса (об этом вы узнаете после регистрации). Часть слишком сложны или интерфейс на китайском (бесспорно для кого-то будет плюсом), в общем — у меня набрался большой список претензий.

Функциональные возможности расширения для парсинга

Вступление затянулось, перейдем к описанию возможностей. Никаких ракетных технологий, только необходимый функционал и старые проверенные решения, приложение с простым интерфейсом, ручными настройками и возможностью сохранять/загружать шаблоны.

Для поиска данных используется xpath запрос или css селектор. С одной стороны нужно уметь написать путь к элементу, с другой вы получаете возможность «ручного управления» — самостоятельно выбрать какие данные получить. Пусть вас не пугает xpath и css, если вы с ними не знакомы, у нас есть статья, которая на примерах научит базово использовать эти инструменты.

Интерфейс расширения iDatica

Список возможностей расширения:

  • Парсинг каталогов с пагинацией (автоматизируется нажатие кнопки «далее»);
  • Парсинг своего набора ссылок;
  • Возможность ограничить сбор данных в нужной части страницы (этот же функционал задает повторяющиеся блоки карточек товара при парсинге интернет-магазинов);
  • Возможность задать задержку между переходом на следующую страницу (избегаем блокировки, но увеличиваем время парсинга);
  • Автоматический поиск xpath и css селектора до нужного элемента;
  • Предпросмотр — какой элемент находит написанный запрос;
  • Предпросмотр — какие данные на странице собирает написанный запрос и их общее количество;
  • Загрузка и сохранение шаблонов (на нашем сайте нас можно скачать несколько готовых);
  • Экспорт данных в csv и json;
  • Лог всего происходящего.

Принимаются критика и пожелания.

У нас можно заказать коммерческий сбор данных с сайтов или мобильных приложений.

0
Комментарии
0 комментариев
null