Как быстро извлечь ценную информацию из громоздких PDF-файлов и не убить на это кучу времени

Итак, перед вами большой PDF-файл с карточками организаций всех участников отраслевой выставки. Страниц эдак на 200. Ну свихнуться можно, если собирать оттуда базу потенциальных клиентов с графической информацией вручную, а затем структурировать… Но очень нужно.

Такую сборную солянку можно структурировать с помощью парсинга, вытащив логотип, название организации, продуктовую нишу, описание организации, контактные данные, разбитые на отдельные блоки. И всё это займёт 5 часов вместо недели.

Привет! Я Александр Пинаев, строю IT-компанию Vimble с амбициями, и мой первый шаг к крупной компании – это услуги парсинга и базы данных. ParsingMaster профессионально парсит данные и анализирует практически любую информацию даже из неудобных источников: PDF-каталогов, фотографий, баннеров.

Пример страницы PDF-файла c выделением собираемых данных  
Пример страницы PDF-файла c выделением собираемых данных  

Будем работать с этим файлом. У него есть один косяк – нет единой структуры. Все данные на каждой странице расположены в разных местах. На множестве страниц структура уникальна, логотипы имеют различный формат, а где-то вообще объединены с фоном. Это особенность буклетов всех выставок, или нам так повезло?)

Поэтому вот что мы сделали (и сделали отлично). Рассказываем поэтапно, как спарсили этот pdf-файл:

  • Сформировали список собираемых параметров: название организации, категория продуктов, контакты, визуальные параметры.
  • Выполнили анализ структуры PDF-файла: где находятся требуемые данные и как произвести их отбор из всего объёма данных.
  • Привели весь документ к единой структуре. После этого парсер понимал, где находится логотип организации.
  • Создали скрипт для Photoshop, парсер автоматически вырезал логотипы из документа и сохранял их.
  • Создали парсер, протестировали, отладили и сформировали базу данных.
Пример готового текстового результата
Пример готового текстового результата

В итоге мы получаем проверенную информацию о клиентах в удобном виде. Если бы мы перепечатывали файл, то это заняло бы несколько рабочих дней (страниц в файле 133). Сервисы распознавания текста не умеют структурировать данные автоматически, так что даже с ним это заняло бы несколько дней.

11
11
Начать дискуссию