Всем привет, меня зовут Александр Калыргин, сейчас я активно занимаюсь сферой получения и анализа данных. Захотелось показать, как можно без особых проблем получить базы организаций, зарегистрированных в нужном вам регионе.На данную статью меня воодушевил Максим Кульгин. Очень открытая и интересная личность, советую подписаться на его канал: https://t.me/bezsmuziВ своей работе я использовал данные из открытых источников, а именно:Данные ФНС (архивы ЕГРЮЛ от ИТСОФТ— egrul.itsoft.ru)Портал Чекко (checko.ru)Большое спасибо ребятам из ИТСОФТ, они большие молодцы – данные должны быть открытыми. Однако, эти архивы ФНС РФ предоставляет за 300 000р. в год.Давайте получим данные об организациях Свердловской области, ведущих свою деятельность в строительной сфере. Итак, начнем.1) Получаем входные данныеС сайта egrul.itsoft.ru скачиваем данные ФНС:Архив доходов и расходов за 2011-2020 года;Архив кодов ОКВЭД;Архивы промежуточных данных (для удобства обновления данных);Архивы организаций и обновления к ним.Из архива данных организаций получаем следующую таблицу:Данные организаций ФНССоединяем её с архивом доходов и расходов, выбрав при этом значения за 2020 год.В архиве кодов ОКВЭД смотрим идентификаторы, которые соответствуют строительной сфере (3327 – 3286).Фильтруем данные по следующим параметрам:Соответствие ОКВЭД;Регион – Свердловская область (66);Дата окончания деятельности – должна быть нулевая (0000-00-00);Доходы – выше 600 000 рублей за 2020 год.После этих действий удаляем дублирующиеся записи и ненужные колонки в таблице.Отфильтрованная база организацийУже 2758 организаций!2) Хорошо, теперь обогащаем данныеПарсим почту, сайт и телефоны с сайта Чекко. Это сделаем, подставляя ОГРН или ИНН в базовую ссылку поиска: «https://checko. ru/search?query=». Советую поставить задержку между запросами в 0,5 секунды, чтобы получать корректные данные.Парсинг данных с checko.ruСобираем полученные данные воедино с основной таблицей. Вуаля! Вы получили актуальную базу данных строительных организаций Свердловской области!Итоговый вариант базы организацийНа формирование данной базы у меня ушло около 1 часа, включая работу парсера. Всего получилось 1554 организации с контактной информацией.Надеюсь, статья была интересная.Также я занимаюсь получением открытых данных с необходимой вам периодичностью.Telegram @a_kalyrgin