Как умно выстроить загрузку данных в корпоративное электронное хранилище?

Договоры, бухгалтерские документы, транспортные декларации, кадровые документы, проектная документация – всё больше видов документов сегодня вовлекается в электронный документооборот и может быть обработано интеллектуальными системами практически без участия человека. Отказ от ручной обработки документов в пользу автоматизированных решений позволяет снизить операционные расходы на эти задачи до 30%. Это достигается за счёт более высокой скорости ввода данных, минимизации рисков человеческого фактора, возможности автоматической проверки корректности данных.

Современные ИТ-системы, объединяющие инструменты обработки документов и технологии искусственного интеллекта (далее ИИ), решают задачу обработки данных на высоком уровне и относятся к классу IDP-систем (Intelligent Document Processing). По сути, они являются следующей ступенью развития уже знакомых рынку OCR-систем (Optical Character Recognition) для распознавания текста с расширенными возможностями классификации документов, извлечения данных и их переноса в корпоративные приложения.

Рассмотрим функции современной IDP-системы и её возможности по оптимизации корпоративных бизнес-процессов.

Задача распознавания текста (перевод изображения в машиночитаемый вид) решена достаточно давно. Современные системы достигают точности распознавания 90-99% в зависимости от качества документа. Но для задач бизнеса важно уметь корректно считывать не только отдельные символы, но «‎видеть» текст целиком. Каждый документ содержит целый ряд важных объектов: логотипы, факсимиле подписей, картинки, таблицы. Современные OCR-технологии умеют распознавать такие элементы и корректно воссоздавать структуру исходного документа при сохранении в электронном формате.

Задача по распознаванию информации, закодированной в штрих-коде. Абсолютное большинство современных печатных документов создаются в компьютерных приложениях и изначально являются электронными. Поэтому при формировании печатного экземпляра значимую цифровую информацию можно закодировать в виде штрих-кода и распечатать на бумажном экземпляре документа. При сканировании и распознавании IDP-система автоматически выделяет штрих-код на изображении, распознаёт его и передаёт сопровождающую информацию в необходимую ИТ-систему. Эта функция существенно упрощает дальнейшую обработку документа.

Важным этапом подготовки к распознаванию документа является предварительная обработка изображения – картинки или скана. Система выравнивает положение документа, если оно сместилось при сканировании, убирает точки, царапины и другие шумы, а также при необходимости выполняет цветокоррекцию. Всё это помогает сделать дальнейшее распознавание более точным.

С развитием функции распознавания системы для автоматической обработки научились выделять семантические сущности из документа и формировать атрибуты для его сопровождения. Эволюция функции происходила постепенно.

Первой задачей было распознавание структурированных печатных форм. В стандартизированных документах, например, в анкетах ЕГЭ, для выделения значимой информации применяли зональное размещение тех или иных атрибутов: наименований товарных позиций и цен, атрибутов отправителя и получателя товаров и пр. Также применялись другие способы определения корректности распознавания: регулярные выражения, сверка со справочниками товарных позиций. В целом создание шаблонов для описания различных типов документов и их структуры было построено громоздко и требовало участия специально обученных сотрудников. Сегодня с помощью low-code инструментов корпоративные пользователи могут самостоятельно формировать шаблоны распознавания для новых типов документов без вмешательства в код системы.

Новый виток в развитии технологий распознавания и интеллектуальной обработки документов – это применение искусственного интеллекта. ИИ-алгоритмы участвуют в классификации поступивших документов для запуска бизнес-процессов по их обработке, определении его значимых элементов, выделении атрибутов контрагента из текста неструктурированного документа, например, договора. С появлением нейросетей стало возможно качественное распознавание рукописного текста. Эксперты предполагают, что следующим шагом в развитии технологии станет интеграция в единый процесс обработки документов голосовых технологий, цифровых помощников и генеративных чат-ботов.

IDP-системы могут произвести сверку данных, извлечённых из полученных от контрагентов документов, по разным параметрам:

Проверка форматов и семантики

Проверка соответствия распознанных атрибутов к форматам, требуемых в данном контексте: например, необходимое форматирование, выделение омонимов и определение необходимой семантики (например, придание нужного смысла слову ягуар – автомобиль или животное).

Проверка комплектности документов и кросс-проверки

Проверка наличия всех документов в комплекте и проверка соответствия ссылок в документах и общих атрибутах

Контроль сумм и других числовых позиций в документе

Арифметические проверки отвечают на вопросы: укладывается ли числовой атрибут (например, цена) в требуемые границы; соответствует ли общая сумма в таблице значениям отдельных атрибутов; правильно ли рассчитан НДС и пр.

Выверка наименований позиций и привязка к значениям справочников и формирование справочных позиций

Если документ содержит ссылки на позиции в справочниках из корпоративных систем, то система производит сверку и привязку к элементам этих справочников (формирование необходимых ссылок в полученном документе)

Выверка отдельных позиций по тем или иным бизнес-правилам

Перед импортом документа в информационную систему может проводиться проверка корректности заполнения документа в соответствии с установленными бизнес-правилами заполнения документов, принятых в принимающей информационной системе.

Все перечисленные возможности верификации настраиваются в IDP-системе, могут обеспечить автоматический контроль качества распознавания и сильно сократить время обработки документов. Причём функции этого класса IDP-систем применимы не только к «бумажных документам», но и к документам, полученным в электронном виде по электронной почте или через оператора ЭДО.

IDP-системы способны поддерживать работу в потоковом режиме, когда сканируются и обрабатываются не отдельные файлы, а пакеты, содержащие большое количество разнородных документов. IDP-система позволяет:

выделить в потоке обрабатываемых листов отдельные документы (по заранее настроенным правилам)
определить вид документа
применить к документу соответствующий шаблон распознавания
выполнить необходимые процедуры предобработки и, что очень важно, оценить качество проделанных операций.

В случае сомнений в точности и правильности распознавания документ может быть передан на верификацию ответственному сотруднику организации, который вручную производит проверку корректности распознанных данных и после соответствующего подтверждения направляет документ в информационную систему организации.

Современные IDP-системы содержат бесшовные интерфейсы для автоматической загрузки документов в те или иные прикладные системы, например, 1С. При этом правила загрузки и возможность преобразования документа настраиваются без программирования с помощью инструментов Low-code. Также в IDP-системах есть необходимые инструменты для инициализации процессов обработки в корпоративной СЭД- или BPM-системе при появлении новых документов.

Возможность работы с извлечёнными из документов данными не избавляет организацию от необходимости хранения электронных или оригинальных бумажных документов, ведь именно они подтверждают факт заключения сделки или реализации продукции. Очень часто, например, в случае востребований по проверкам ФНС или в процессах налогового мониторинга для контроля валидности данных документа достаточно предъявить не бумажную копию документа, а его скан-образ. Для этого в организации необходимо развернуть архив электронных документов, доступный из всех прикладных систем, и в момент фиксации данных в прикладной системе зафиксировать также ссылки на образ документов в архиве. Функции электронного архива в организации обеспечивают платформы электронного документооборота (Content Services Platform), с которыми могут интегрироваться IDP-системы.

Как интеграция CSP-платформы и OCR-система может повысить эффективность работы бухгалтерской службы в результате автоматизации процесса обработки первички, рассказали в видео:

Описанные выше функции, которые реализованы в современных IDP-системах, позволяют радикально, в десятки раз, сократить скорость обработки входящих и исходящих документов, а также снизить трудоёмкость данных операций и высвободить время квалифицированных сотрудников для выполнения более творческой работы, что делает их необходимыми инструментами цифровой трансформации бизнеса.

Благодарим коллег из Content AI, которые не только занимаются разработкой IDP-систем более 30 лет, но и помогли в подготовке этого материала.

Как умно выстроить загрузку данных в корпоративное электронное хранилище?

Базовые функции распознавания

Функции предобработки

Интеллектуальное распознавание

Автоматическая верификация

Организация потокового ввода документов

Организация процесса обработки документов и интеграция с учётными системами

Необходимость электронного архива