Бесплатно собрать данные: расширение от iDatica

Привет! Мы сделали простое и бесплатное расширение для сбора данных с сайтов. Зачем и что в нем уникального? Сейчас расскажу.

Бесплатно собрать данные: расширение от iDatica

Начну, как водится, издалека. Я работаю в компании, которая занимается сбором данных в «промышленных масштабах», это миллионы собираемых данных, парсинг приложений и динамическое содержимое, прокси, постобработка, обход капчи, мониторинг качества, бэкапы, вот это вот все. И да, для масштабных задач все еще не придумали универсальный инструмент, не стандартные требования = кастомная разработка. Но, вместе с тем к нам обращаются и не крупные заказчики, основной кейс которых — разовый парсинг какого-либо каталога или определенной категории на сайте.

Со временем появилось понимание, какая функциональность парсера поможет решить большинство подобных задач. И мы решили сделать бесплатный инструмент, который позволит решать такие задачи.

Зачем же делать парсер, если в сторах браузеров можно найти расширения с похожим функционалом? Потому, что найти расширение, которое бы просто решало задачу и было более-менее универсально для базовых задач оказалось не просто (к слову, мне это не удалось сделать).

Часть из них работает в режиме no code, само пытается определить повторяющиеся блоки данных на странице, но как только попадается крупный интернет-магазин с не очевидной структурой – данные «едут» или расширение уходит в цикл поиска значений, из которого не возвращается. Часть расширений предоставляют минимальный функционал – дальше за деньги или вовсе являются оболочкой коммерческого сервиса (об этом вы узнаете после регистрации). Часть слишком сложны или интерфейс на китайском (бесспорно для кого-то будет плюсом), в общем — у меня набрался большой список претензий.

Функциональные возможности расширения для парсинга

Вступление затянулось, перейдем к описанию возможностей. Никаких ракетных технологий, только необходимый функционал и старые проверенные решения, приложение с простым интерфейсом, ручными настройками и возможностью сохранять/загружать шаблоны.

Для поиска данных используется xpath запрос или css селектор. С одной стороны нужно уметь написать путь к элементу, с другой вы получаете возможность «ручного управления» — самостоятельно выбрать какие данные получить. Пусть вас не пугает xpath и css, если вы с ними не знакомы, у нас есть статья, которая на примерах научит базово использовать эти инструменты.

Интерфейс расширения iDatica<br />
Интерфейс расширения iDatica

Список возможностей расширения:

  • Парсинг каталогов с пагинацией (автоматизируется нажатие кнопки «далее»);
  • Парсинг своего набора ссылок;
  • Возможность ограничить сбор данных в нужной части страницы (этот же функционал задает повторяющиеся блоки карточек товара при парсинге интернет-магазинов);
  • Возможность задать задержку между переходом на следующую страницу (избегаем блокировки, но увеличиваем время парсинга);
  • Автоматический поиск xpath и css селектора до нужного элемента;
  • Предпросмотр — какой элемент находит написанный запрос;
  • Предпросмотр — какие данные на странице собирает написанный запрос и их общее количество;
  • Загрузка и сохранение шаблонов (на нашем сайте нас можно скачать несколько готовых);
  • Экспорт данных в csv и json;
  • Лог всего происходящего.

Принимаются критика и пожелания.

У нас можно заказать коммерческий сбор данных с сайтов или мобильных приложений.

22
Начать дискуссию