Как собрать базу организаций за час

Всем привет, меня зовут Александр Калыргин, сейчас я активно занимаюсь сферой получения и анализа данных. Захотелось показать, как можно без особых проблем получить базы организаций, зарегистрированных в нужном вам регионе.

На данную статью меня воодушевил Максим Кульгин. Очень открытая и интересная личность, советую подписаться на его канал:

В своей работе я использовал данные из открытых источников, а именно:

  • Данные ФНС (архивы ЕГРЮЛ от ИТСОФТ— egrul.itsoft.ru)

  • Портал Чекко (checko.ru)

Большое спасибо ребятам из ИТСОФТ, они большие молодцы – данные должны быть открытыми. Однако, эти архивы ФНС РФ предоставляет за 300 000р. в год.

Давайте получим данные об организациях Свердловской области, ведущих свою деятельность в строительной сфере.

Итак, начнем.

1) Получаем входные данные

С сайта egrul.itsoft.ru скачиваем данные ФНС:

  • Архив доходов и расходов за 2011-2020 года;

  • Архив кодов ОКВЭД;

  • Архивы промежуточных данных (для удобства обновления данных);
  • Архивы организаций и обновления к ним.

Из архива данных организаций получаем следующую таблицу:

Данные организаций ФНС
Данные организаций ФНС

Соединяем её с архивом доходов и расходов, выбрав при этом значения за 2020 год.

В архиве кодов ОКВЭД смотрим идентификаторы, которые соответствуют строительной сфере (3327 – 3286).

Фильтруем данные по следующим параметрам:

  • Соответствие ОКВЭД;
  • Регион – Свердловская область (66);
  • Дата окончания деятельности – должна быть нулевая (0000-00-00);
  • Доходы – выше 600 000 рублей за 2020 год.

После этих действий удаляем дублирующиеся записи и ненужные колонки в таблице.

Отфильтрованная база организаций
Отфильтрованная база организаций

Уже 2758 организаций!

2) Хорошо, теперь обогащаем данные

Парсим почту, сайт и телефоны с сайта Чекко. Это сделаем, подставляя ОГРН или ИНН в базовую ссылку поиска: «https://checko. ru/search?query=». Советую поставить задержку между запросами в 0,5 секунды, чтобы получать корректные данные.

Парсинг данных с checko.ru
Парсинг данных с checko.ru

Собираем полученные данные воедино с основной таблицей. Вуаля! Вы получили актуальную базу данных строительных организаций Свердловской области!

Итоговый вариант базы организаций
Итоговый вариант базы организаций

На формирование данной базы у меня ушло около 1 часа, включая работу парсера. Всего получилось 1554 организации с контактной информацией.

Надеюсь, статья была интересная.

Также я занимаюсь получением открытых данных с необходимой вам периодичностью.

Telegram @a_kalyrgin

1414 показов
695695 открытий
Начать дискуссию