{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Как достать данные из интернета (для непрограммиста)

Практический опыт показал, что для написания парсера приходится не только знать чуть больше, чем основные команды целевых библиотек Python, но и алгоритмы отлова ботов, методы их обхода, а также хорошо ориентироваться в разметке целевого сайта.

И даже узнав и проделав всё это, готовый парсер является одноразовым инструментом.

На данный момент на рынке существуют готовые инструменты для парсинга, немногие из них оптимальны, но один отличается в лучшую сторону. Octoparse — это условно-бесплатное приложение для извлечения веб-данных. Даже обычные пользователи могут легко использовать Octoparse для массового извлечения информации с веб-сайтов, без написания собственного кода и даже без просмотра кода сайта. Иногда он позволяет в разы упростить и ускорить получение данных.

По сравнению с конкурентами данный инструмент обладает невероятно прогрессивным и интуитивным интерфейсом, который визуализирует порядок действий на веб-сайте. Программа может автоматически извлекать желаемый контент почти с любого веб-сайта и после позволяет сохранять его в виде структурированных файлов в выбранном формате. На этом его достоинства не заканчиваются, Octoparse как и некоторые другие инструменты позиционирует выбираемые пользователем данные как совокупность повторяющихся элементов с похожими шаблонами HTML.

Его часто используют в работе, например, для получения цен товаров из интернет-магазинов для последующего сравнения с закупочной стоимость.

Предлагаем инструкцию для работы с данным приложением

Установка

Для начала нам потребуется зарегистрироваться на сайте www.octoparse.com (официальный сайт продукта Octoparse)

При входе нас встречает стартовая страница, выбрав пункт «Start a Free Trial» сайт перенаправит нас на форму регистрации.

На странице регистрации мы видим классические поля для заполнения, такие как: почтовый адрес, имя пользователя пароль, а также сфера использования данного продукта.

После регистрации на сайте на почтовый ящик придет письмо с подтверждением регистрации. Перейдя по ссылке в письме, мы активируем акант, и получим доступ к скачиванию программы. Затем скачиваем и устанавливаем.

Начало работы

Шаг 1: Аутентификация

При первом входе нас встречает окно авторизации, где необходимо ввести данные, использованные при регистрации на сайте и нажать «Logon”, также можно нажать флажок “Auto Logon» для автоматической авторизации по этим учетным данным.

Шаг 2: Создание нового проекта

После авторизации мы увидим главное меню программы с множеством кнопок, выбираем кнопку «Task” под надписью «Advanced Mode».

Шаг 3: Выбор сайта для парсинга

После нажатия кнопки появляется окно ввода адреса веб-страницы, где необходимо ввести адрес нужной страницы и нажать кнопку «Save URL».

Для примера был использован сайт магазина «DNS»:

Шаг 4: Переход по страницам сайта

После загрузки сайта программой — он появится в нижней части экрана. Первым шагом необходимо создать цикл перехода между страницами, чтобы данные загружались не с одной страницы, а со всех страниц в нужной категории. Для этого в нижней части экрана, нажимаем кнопку перехода на следующую страницу сайта (в контекстном меню выбираем пункт «Loop click the selected link»).

Шаг 5: Проверка плана выполнения

После выполненных действий шага 4 — в левом верхнем углу на плане выполнения отобразится созданный цикл.

Шаг 6: Выбор данных

Перейдем к выбору необходимых для извлечения данных, нажав на интересующий элемент, в нашем случае — название модели монитора (в появившемся контекстном меню выбираем пункт «Select all» для выбора всех аналогичных элементов на странице).

Шаг 7: Проверка выбранных данных

После выбора элементов в контекстном меню отобразится таблица с примером данных выбранной страницы, где мы можем удалить ненужные столбцы и строки. Выбираем и нажимаем кнопку «Extract link text» для сохранения выбора.

Шаг 8: Структурирование выбранных данных

План выполнения изменится и внутри цикла перехода между страницами отобразится цикл извлечения данных. Далее мы выбрали цены по аналогичному алгоритму. В верхней правой части программы появилось окно работы с данными, где мы можем совершить необходимые преобразования, например, переименовать название столбца.

Шаг 9: Извлечение данных

Переходим к извлечению, нажав кнопку «Start extraction”, появится модальное окно для проверки готовности (нажимаем «Yes»).

Затем откроется окно с типом выгрузки. Если нет личного сервера — выбираем «Local extraction»

Далее в окне извлечения данных (в верхней части) в реальном времени отображаются действия программы на сайте, а в нижней части отображаются извлеченные данные.

По завершению извлечения отображается общая статистика парсинга, и программа предлагает экспортировать данные, что мы и сделаем, нажав кнопку «Export data»

Шаг 10: Экспорт данных

Выберем удобный нам формат и нажмем «Export data»

Шаг 11: Сохранение данных

Программа предложит выбрать место для сохранения и имя файла.

Выбрав место, программа производит экспорт с отображение хода выполнения. По завершению нажимаем «Finish».

Шаг 12: Проверка результата

Проверим результат, открыв сохраненный файл.

У всего есть свои минусы, у Octoparse — это ограничение количества загруженных строк с данными в 10000 записей для одного проекта, и ограничения по количеству проектов для одной учетной записи в 10 проектов. Однако, всегда можно совершенно бесплатно зарегистрировать новый аккаунт и продолжить использование. Однозначно советую всем данный инструмент для небольших проектов (как отличную альтернативу написанию кода). Если данный метод Вам помог получить данные поделитесь им с друзьями, коллегами.

0
Комментарии
-3 комментариев
Раскрывать всегда