Различные возможности современных систем распознавания (OCR)

Различные возможности современных систем распознавания (OCR)

Первые упоминания систем, способных распознавать документы, уходят в 90-е годы. С того периода прошло немало времени и современные системы распознавания сильно преобразились. В настоящей статье мы хотели бы рассказать насколько сильно изменились технология распознавания, какие стадии развития прошел данный процесс и что в настоящем мире можно понимать под термином многогранным термином «распознавание документов».

Стадия первая: Получение текстового документа

Различные возможности современных систем распознавания (OCR)

В самом базовом понимании термин «распознавание документа» обозначает получение текстового документа на основе отсканированного изображения документа. Указанная функция широко востребована многими людьми, поскольку очень часто сталкиваются с тем, что у их под рукой нет исходного вордовского документа, но есть или бумажный экземпляр документа или есть отсканированная копия.

Стадия вторая: Получение базовых атрибутов документа

Различные возможности современных систем распознавания (OCR)

По мере развития систем распознавания некоторые из них научились определять значения атрибутов документов. Это позволило облегчить процесс занесения данных в информационные системы при облегчить регистрации документов. И если раньше ввод данных был возможен исключительно вручную, путём перенабивки сотрудником текстов из полей, то теперь появилась возможность переносить распознанные данные, полученные после распознавания.

Стадия третья: Классификация документов

Различные возможности современных систем распознавания (OCR)

Далее в системах распознавания появилось понятие автоматической классификации документов. Также данный процесс иногда называют систематизацией или сепарацией документов. Когда в систему загружался документ, от системы распознавания требовалось определить его тип.

Стадия четвёртая: Распознавание неструктурированных документов

Различные возможности современных систем распознавания (OCR)

Организации, в которых рождается много документов различного типа, нуждаются в автоматизированной системе распознавания, способной полностью систематизировать и атрибутировать документы. Системы данного класса способны в значительной мере сократить затраты компании на ручную обработку документов.

Стадия пятая: Комплекты и верификация

Различные возможности современных систем распознавания (OCR)

Одним из важных элементов распознавания является возможность определения комплекта документа, объединенных одной логической связью. Данная функция в системах распознавания позволяет не только определять комплект, но и выявлять неполные комплекты документов, тем самым позволяя определять те, которые были оформлены неправильно. Помимо прочего задачи по верификация распознанных данных и перекрёстные проверки документов между собой также могут быть решены при помощи систем автоматического распознавания.

Оффтоп - мы запустили спецпроект! Telegram-канал "Бумажный мир" - экспертный канал о работе с документами и архивной отрасли! Актуальные новости, законодательство, инструкции и инструменты! Подписывайтесь.

Стадия шестая: Справочники

Различные возможности современных систем распознавания (OCR)

Особенностью любой системы распознавания является то, что распознанные данные могут содержать ошибки, опечатки и другие неточности, которые зачастую не позволяют опираться на них в случае дальнейших действий с документом. Например, если название контрагента из документа распозналось в ошибкой или не так, как ожидал пользователь, то такой результат нельзя назвать приемлемым. И в данной ситуации на помощь приходят справочники и умение систем распознавания работать с ними.

Стадия седьмая: Единый информационный ландшафт

Различные возможности современных систем распознавания (OCR)

Наиболее полным и безусловно эффективным является процесс распознавания, в результате которого каждый распознанный документ формирует новую электронную карточку или привязывается к действующей карточке той информационной системы, которая используется в организации.

В случае если у вас уже налажен учёт документов в электронном виде, но при этом требуется объединить информацию из бумажного документа с электронной карточкой (начиная от проверки и наполнения атрибутов, заканчивая проверкой содержимого, комплектности или наличия оригинала), то данные задачи могут быть решены с помощью использования систем распознавания документов.

В случае если учёта документов нет и требуется на основании массива бумажных документов сформировать информационный набор электронных карточек документов, то и данная задача на сегодняшний день под силу современным системам распознавания (OCR).

Резюме

В заключении нам хотелось бы отметиться, что под распространённым понятием «распознавания документов» сегодня можно понимать множество различных процессов и действий, который направленны на получение в автоматическом режиме информации с бумажных документов.

При построении процесса распознавания важно учитывать то, что не нужно распознавать данные из документов, если информация об этих документах уже есть в какой-либо действующей системе. Процесс нужно строить так, чтобы максимально опираться на имеющиеся в наличии данные и связывать, посредством распознавания, документы с этими наборами данных.

Главное предназначение систем распознавания - это автоматизация процесса обработки документов, который еще недавно мог осуществляться исключительно вручную, тем самым нес за собой существенные затраты на своё поддержание. А наш опыт показал, что можно обрабатывать миллионы документов силами всего нескольких специалистов и что процессы распознавания способны в десятки раз сократить затраты, необходимые на регистрацию и различные проверки документов.

Материал подготовлен партнёром "Делис Архив", Иваном Денисовым, ООО «Делис Инфо»

От редакции: Делис Инфо - российская ИТ-компания — эксперт в области повышения эффективности бизнес-процессов, связанных со сбором, использованием, учетом, хранением и обслуживанием документов.

11
Начать дискуссию