Роботизация — не только для корпораций: три примера использования RPA в компаниях среднего бизнеса

Робот переносит 600 000 документов в «Битрикс24», обрабатывает «Торг-12» и продлевает договоры.

2929

По опыту - OCR без человека-контролера хорош далеко не всегда.
Потому силы проще бросать не на оптимизацию связки "OCR+оператор" а на ЭДО и получение документов в xml
Потратить на это лишние 500$ (на обзвон и уговор контрагентов)  гораздо выгоднее, чем читать бумагу.

В статье не раскрыта еще увлекательнейшая тема "парсинга Pdf"  которая может приводить к отличному результату, существенно снижая роль OCR*

1
Ответить

Это точно - от человека на 100% не отказаться при оптическом распознавании. Но высвободить хотя бы часть ресурсов - уже хорошо (их как раз можно потратить на обзвон и переход на ЭДО).
Но не все документы можно в ЭДО засунуть. Так что OCR все равно имеет право на жизнь. Поэтому добавляем кросс-проверки, мониторим коэффициент качества, предусматриваем контроль со стороны человека.
Про парсинг ПДФок - история тоже интересная. Если ПДФка с текстовым слоем, то парсится оченб легко. И действительно, результат отличный.
Но сканы документов всё равно в ПДФе идет как графика. И их всё равно распознавать через OCR приходится.

1
Ответить