Парсинг сайта с помощью Excel

На первый взгляд Excel и парсинг понятия несовместимые. Как с помощью табличного редактора можно получать информацию из сети? И ведь многие недооценивают Excel, а это вполне посильная задача для него. При этом все делается стандартными методами без необходимости дополнительно что-то устанавливать/настраивать.

Разберем на конкретном примере по получению информации с сайта Минюста, а именно, нам необходим перечень действующих адвокатов Российской Федерации. Кнопки «выгрузить списочно всех адвокатов» — конечно же, нет. На официальном сайте http://lawyers.minjust.ru/ выводится по 20 адвокатов на 1 странице, всего 74 754 страниц, итого на выходе мы должны получить чуть меньше 150 тыс. адвокатов.

Для начала открываем VBA и создаем объект InternetExplorer, посредством которого будем получать данные.

Затем надо определить, как будем переходить между страницами на сайте – для этого просматриваем элемент перехода на следующую страницу. Ссылка между станицами отличается значением в конце и соответствует номеру страницы – 1.

Имея информацию о ссылке страницы — осуществляем их перебор, загружаем в InternetExplorer и забираем все данные со страницы.

В коде страницы представлена структура таблицы со всеми столбцами, которые нам необходимы: реестровый номер, ФИО адвоката, субъект РФ, номер удостоверения, текущий статус.

Для получения этой информации с помощью ключевых слов осуществляем поиск по тегам и забираем требуемые данные.

В итоге получаем список всех адвокатов в таблицу Excel для дальнейшей обработки.

0
8 комментариев
Написать комментарий...
Andrey L

А есть это не в виде картинок, а в виде текста, что бы скопипстить?

Ответить
Развернуть ветку
NTA
Автор

Да, есть, направим!

Ответить
Развернуть ветку
Andrey L

Супер! Буду ждать весточку :-) надеюсь, он будет рабочий, а не кусочечками :-) как на картиночках :-) 

Ответить
Развернуть ветку
Andrey L

Жив ли там программист со скриптом :-)

Ответить
Развернуть ветку
Andrey L

Не теряю надежду, АУУУУ

Ответить
Развернуть ветку
Никита Волков

Автор - the best of the best) Часы потраченные в течение всей жизни на попытку сходу решить проблему, не разбираясь в тонкостях HTML,  XML, JavaScript и т.д.) А ларчик оказывается просто открывался... Просто 10 баллов из 5 за статью.

p.s. Впервые регистрируюсь на сайте, чтобы оставить комментарий.

Ответить
Развернуть ветку
Никита Волков

Тем не менее предложенный способ простой, если нет времени разбираться в тонкостях работы, но более профессионально и надежно все таки парсить через  использование HTML-элементов на сайте.
Для желающих рекомендую статьи, по ним можно сориентироваться по данному вопросу.

Ответить
Развернуть ветку
Andrey L

Что то в эфире тишина, и кода нет :-(

Ответить
Развернуть ветку
5 комментариев
Раскрывать всегда