Разработка
NTA

Создание классификатора с помощью ABBYY FlexiCapture 12

Для чего классифицировать и как создать классификатор для распознавания. pdf документов с помощью программного обеспечения ABBYY FlexiCapture 12.

Знакомство с задачей классификации можно начать с Википедии, перейдя по ссылке.

Классификация применяется тогда, когда необходимо выделить схожие объекты из множества различных объектов, для выполнения в дальнейшем каких-либо действий над данными объектами.

Например, .pdf документы в составе пакетов документов необходимо сначала классифицировать, что позволит в дальнейшем распознать их и извлечь данные из них.

Компанией ABBYY разработано программное обеспечение ABBYY FlexiCapture 12, которое позволяет достаточно легко справится с задачей классификации. pdf документов.

Более полную информацию о данном продукте можно получить по ссылке.

По другой ссылке выложены различные описания и инструкции. Применим их на практике для создания классификатора.

Итак, для начала работы необходимо запустить Пуск 🡪 Станция Настройки Проектов и создать новый проект Файл 🡪 Создать

Назовем проект Классификация с типом Проект FlexiCapture

Далее необходимо перейти в область Пакеты обучения классификатора

В области Пакеты обучения классификатора создадим новый пакет Файл 🡪 Новый пакет

Назовем пакет Классификатор и загрузим в него изображения Файл 🡪 Загрузить изображения…

Далее каждому загруженному для обучения изображению необходимо установить эталонный класс

В качестве эталонных классов будем использовать определения документов и для этого их потребуется создать Проект 🡪 Определения документов…

Так выглядит окно определений документов после их создания и опубликования

В нашем случае потребуется только два неструктурированных определения График и Анкета. Именно данные изображения были загружены для обучения.

Теперь можно приступать к установлению эталонных классов.

На этапе установки эталонных классов пользоваться предпросмотром обязательно!

Все что остается сделать далее — выделить изображения с установленными эталонными классами и последовательно сначала запустить обучение, по завершении обучения — запустить классификацию, как показано на картинках ниже.

В результате обучения и классификации должны получиться уверенно классифицированные классы.

Можно подгрузить изображения, не участвующие ранее в обучении, установить для них состояние для тестирования и проверить качество работы классификатора.

Для тестовых изображений эталонный класс тоже установить необходимо, так как оценка об уверенно классифицированных изображениях складывается из сравнения эталонных и результирующих классов.

В результате тестирования изображения, не участвующие в обучении, были уверенно классифицированы, что позволяет судить о хорошем качестве созданного классификатора.

Вывод. На практике создали с помощью ABBYY FlexiCapture 12 классификатор, применение которого будет рассмотрено в следующей статье про распознавание и извлечение данных из .pdf документов с помощью ABBYY FlexiCapture 12.

{ "author_name": "NTA", "author_type": "editor", "tags": [], "comments": 0, "likes": 0, "favorites": 2, "is_advertisement": false, "subsite_label": "dev", "id": 240471, "is_wide": true, "is_ugc": false, "date": "Thu, 29 Apr 2021 17:36:52 +0300", "is_special": false }
0
0 комментариев
Популярные
По порядку

Комментарий удален

Комментарий удален

Комментарии

null