В чём разница между IDP и OCR? Объясняем даже для тех, кто не знает, что это за наборы букв

Если за месяц через вашу компанию проходят тысячи документов — читайте дальше и впитывайте. Если же вы ИП с небольшим документооборотом, вам пока рано смотреть в сторону автоматизации бумажной работы. Но когда-нибудь вы станете больше и тоже захотите узнать, что лучше: OCR или IDP. Заранее подсказываем:

Где и как у вас хранятся документы компании за 2019 год?

Распечатанные доки разложены по пластиковым папкам или вы уже потратили силы, чтобы отсканировать документы, и теперь всё лежит в компе. Любой вариант может быть окей, если вы без боли в голосе ответите на ещё один вопрос: как вы будете искать 100 документов от 16 апреля 2019 года и извлекать из них только некоторые поля, которые внезапно понадобились вашему контрагенту?

Сначала люди придумали OCR

Если просто:

OCR — это технология, которая «читает» текст на фотографиях и сканах, и переносит его в цифровой вид.

Если по Википедии:

OCR или оптическое распознавание символов (англ. optical character recognition) — механический или электронный перевод изображений рукописного, машинописного или печатного текста в текстовые данные, использующиеся для представления символов в компьютере (например, в текстовом редакторе).

Ваши 100 документов от 16 апреля 2019 года можно прогнать через OCR — и тогда появится возможность искать нужные документы по дате сканирования или ключевым словам. Но конкретные поля всё ещё придётся извлекать вручную.

Кто использует OCR: компании, которые много лет назад установили себе OCR, чтобы облегчить документооборот, и после этого не искали более новых и классных решений. Работает же? Работает. А на метрики никто не смотрит. Например, на процент документов, которые можно распознать вообще без участия людей.

Затем гении создали IDP

Microsoft дал почти человеческое определение:

IDP или интеллектуальная обработка документов (англ. Intelligent Document Processing) — это программное решение, которое собирает, преобразует и обрабатывает данные из документов (например, электронной почты, текста, Word, PDF или отсканированных документов).

IDP не просто бездумно вытаскивает текст из документа. Он использует продвинутые технологии — ИИ, например, различает виды документов, классифицирует их, разделяет на логичные поля, извлекает напечатанные и рукописные тексты, распознаёт печати, подписи, чекбоксы и фотографии. А ещё может без вас обработать тысячи документов и направить их нужному контрагенту, системе или бухгалтеру.

С помощью IDP можно извлекать данные из структурированных документов (паспорт РФ, СТС, ПТС, еще сотни видов) и неструктурированных сложных документов, будь то накладная, рукописное заявление или таблица.

Кто использует IDP: примерно 10% компаний. Это крупный бизнес, который может себе позволить обновления и делает это быстро, так как знает, как это сэкономит ему время, деньги и нервы сотрудников.

Пример №1. Как OCR и IDP справятся с одной и той же задачей — архивом из 60 000 документов

Дано: архив из 60 000 отсканированных документов, названия документов индивидуальные, нет системы.

Задача: составить цифровой архив с удобным быстрым поиском и оставить для работы с этими документами только одного сотрудника — Людочку.

OCR: справился с чтением документов, но не смог создать удобную систему для быстрого поиска. Ничего, дорогой, ты пытался. Людочка сможет найти документ по ключевым словам и датам, но не больше.

IDP: классифицировал 43 типа документа, распознал все данные в каждом типе. Людочка может поднять данные как угодно: по ключевым словам, дате, номеру, типу документа, подписи или печати.

Пример №2. Как OCR и IDP справятся с рукописными детскими сочинениями

OCR: задрал лапки и лежит кверху пузиком.

IDP: натренировался на домашних заданиях 8 000 000 учеников, поэтому уверенно распознает 100% сочинений с 95% точностью и даже как будто иногда приговаривает, не забыл ли кто-то дома голову.

Пример №3. Ваш кейс

Здесь могла бы быть история про вашу компанию, где мы бы сравнили OCR и IDP в действии. Впрочем, мы и так можем это сделать. OCR перевёл ваши документы в машиночитаемый вид и остановился. А IDP справился на ура и автоматизировал все бумажные процессы в вашей компании. Как именно? Давайте узнаем.

Материал подготовили:

0
Комментарии
-3 комментариев
Раскрывать всегда