Как достать данные из интернета (для непрограммиста)
Практический опыт показал, что для написания парсера приходится не только знать чуть больше, чем основные команды целевых библиотек Python, но и алгоритмы отлова ботов, методы их обхода, а также хорошо ориентироваться в разметке целевого сайта.
И даже узнав и проделав всё это, готовый парсер является одноразовым инструментом.
На данный момент на рынке существуют готовые инструменты для парсинга, немногие из них оптимальны, но один отличается в лучшую сторону. Octoparse — это условно-бесплатное приложение для извлечения веб-данных. Даже обычные пользователи могут легко использовать Octoparse для массового извлечения информации с веб-сайтов, без написания собственного кода и даже без просмотра кода сайта. Иногда он позволяет в разы упростить и ускорить получение данных.
По сравнению с конкурентами данный инструмент обладает невероятно прогрессивным и интуитивным интерфейсом, который визуализирует порядок действий на веб-сайте. Программа может автоматически извлекать желаемый контент почти с любого веб-сайта и после позволяет сохранять его в виде структурированных файлов в выбранном формате. На этом его достоинства не заканчиваются, Octoparse как и некоторые другие инструменты позиционирует выбираемые пользователем данные как совокупность повторяющихся элементов с похожими шаблонами HTML.
Его часто используют в работе, например, для получения цен товаров из интернет-магазинов для последующего сравнения с закупочной стоимость.
Предлагаем инструкцию для работы с данным приложением
Установка
Для начала нам потребуется зарегистрироваться на сайте www.octoparse.com (официальный сайт продукта Octoparse)
При входе нас встречает стартовая страница, выбрав пункт «Start a Free Trial» сайт перенаправит нас на форму регистрации.
На странице регистрации мы видим классические поля для заполнения, такие как: почтовый адрес, имя пользователя пароль, а также сфера использования данного продукта.
После регистрации на сайте на почтовый ящик придет письмо с подтверждением регистрации. Перейдя по ссылке в письме, мы активируем акант, и получим доступ к скачиванию программы. Затем скачиваем и устанавливаем.
Начало работы
Шаг 1: Аутентификация
При первом входе нас встречает окно авторизации, где необходимо ввести данные, использованные при регистрации на сайте и нажать «Logon”, также можно нажать флажок “Auto Logon» для автоматической авторизации по этим учетным данным.
Шаг 2: Создание нового проекта
После авторизации мы увидим главное меню программы с множеством кнопок, выбираем кнопку «Task” под надписью «Advanced Mode».
Шаг 3: Выбор сайта для парсинга
После нажатия кнопки появляется окно ввода адреса веб-страницы, где необходимо ввести адрес нужной страницы и нажать кнопку «Save URL».
Для примера был использован сайт магазина «DNS»:
Шаг 4: Переход по страницам сайта
После загрузки сайта программой — он появится в нижней части экрана. Первым шагом необходимо создать цикл перехода между страницами, чтобы данные загружались не с одной страницы, а со всех страниц в нужной категории. Для этого в нижней части экрана, нажимаем кнопку перехода на следующую страницу сайта (в контекстном меню выбираем пункт «Loop click the selected link»).
Шаг 5: Проверка плана выполнения
После выполненных действий шага 4 — в левом верхнем углу на плане выполнения отобразится созданный цикл.
Шаг 6: Выбор данных
Перейдем к выбору необходимых для извлечения данных, нажав на интересующий элемент, в нашем случае — название модели монитора (в появившемся контекстном меню выбираем пункт «Select all» для выбора всех аналогичных элементов на странице).
Шаг 7: Проверка выбранных данных
После выбора элементов в контекстном меню отобразится таблица с примером данных выбранной страницы, где мы можем удалить ненужные столбцы и строки. Выбираем и нажимаем кнопку «Extract link text» для сохранения выбора.
Шаг 8: Структурирование выбранных данных
План выполнения изменится и внутри цикла перехода между страницами отобразится цикл извлечения данных. Далее мы выбрали цены по аналогичному алгоритму. В верхней правой части программы появилось окно работы с данными, где мы можем совершить необходимые преобразования, например, переименовать название столбца.
Шаг 9: Извлечение данных
Переходим к извлечению, нажав кнопку «Start extraction”, появится модальное окно для проверки готовности (нажимаем «Yes»).
Затем откроется окно с типом выгрузки. Если нет личного сервера — выбираем «Local extraction»
Далее в окне извлечения данных (в верхней части) в реальном времени отображаются действия программы на сайте, а в нижней части отображаются извлеченные данные.
По завершению извлечения отображается общая статистика парсинга, и программа предлагает экспортировать данные, что мы и сделаем, нажав кнопку «Export data»
Шаг 10: Экспорт данных
Выберем удобный нам формат и нажмем «Export data»
Шаг 11: Сохранение данных
Программа предложит выбрать место для сохранения и имя файла.
Выбрав место, программа производит экспорт с отображение хода выполнения. По завершению нажимаем «Finish».
Шаг 12: Проверка результата
Проверим результат, открыв сохраненный файл.
У всего есть свои минусы, у Octoparse — это ограничение количества загруженных строк с данными в 10000 записей для одного проекта, и ограничения по количеству проектов для одной учетной записи в 10 проектов. Однако, всегда можно совершенно бесплатно зарегистрировать новый аккаунт и продолжить использование. Однозначно советую всем данный инструмент для небольших проектов (как отличную альтернативу написанию кода). Если данный метод Вам помог получить данные поделитесь им с друзьями, коллегами.