Как быстро извлечь ценную информацию из громоздких PDF-файлов и не убить на это кучу времени

Итак, перед вами большой PDF-файл с карточками организаций всех участников отраслевой выставки. Страниц эдак на 200. Ну свихнуться можно, если собирать оттуда базу потенциальных клиентов с графической информацией вручную, а затем структурировать… Но очень нужно.

Такую сборную солянку можно структурировать с помощью парсинга, вытащив логотип, название организации, продуктовую нишу, описание организации, контактные данные, разбитые на отдельные блоки. И всё это займёт 5 часов вместо недели.

Привет! Я Александр Пинаев, строю IT-компанию Vimble с амбициями, и мой первый шаг к крупной компании – это услуги парсинга и базы данных. ParsingMaster профессионально парсит данные и анализирует практически любую информацию даже из неудобных источников: PDF-каталогов, фотографий, баннеров.

Пример страницы PDF-файла c выделением собираемых данных

Будем работать с этим файлом. У него есть один косяк – нет единой структуры. Все данные на каждой странице расположены в разных местах. На множестве страниц структура уникальна, логотипы имеют различный формат, а где-то вообще объединены с фоном. Это особенность буклетов всех выставок, или нам так повезло?)

Поэтому вот что мы сделали (и сделали отлично). Рассказываем поэтапно, как спарсили этот pdf-файл:

Сформировали список собираемых параметров: название организации, категория продуктов, контакты, визуальные параметры.
Выполнили анализ структуры PDF-файла: где находятся требуемые данные и как произвести их отбор из всего объёма данных.
Привели весь документ к единой структуре. После этого парсер понимал, где находится логотип организации.
Создали скрипт для Photoshop, парсер автоматически вырезал логотипы из документа и сохранял их.
Создали парсер, протестировали, отладили и сформировали базу данных.

В итоге мы получаем проверенную информацию о клиентах в удобном виде. Если бы мы перепечатывали файл, то это заняло бы несколько рабочих дней (страниц в файле 133). Сервисы распознавания текста не умеют структурировать данные автоматически, так что даже с ним это заняло бы несколько дней.