По опыту - OCR без человека-контролера хорош далеко не всегда. Потому силы проще бросать не на оптимизацию связки "OCR+оператор" а на ЭДО и получение документов в xml Потратить на это лишние 500$ (на обзвон и уговор контрагентов) гораздо выгоднее, чем читать бумагу.
В статье не раскрыта еще увлекательнейшая тема "парсинга Pdf" которая может приводить к отличному результату, существенно снижая роль OCR*
Это точно - от человека на 100% не отказаться при оптическом распознавании. Но высвободить хотя бы часть ресурсов - уже хорошо (их как раз можно потратить на обзвон и переход на ЭДО). Но не все документы можно в ЭДО засунуть. Так что OCR все равно имеет право на жизнь. Поэтому добавляем кросс-проверки, мониторим коэффициент качества, предусматриваем контроль со стороны человека. Про парсинг ПДФок - история тоже интересная. Если ПДФка с текстовым слоем, то парсится оченб легко. И действительно, результат отличный. Но сканы документов всё равно в ПДФе идет как графика. И их всё равно распознавать через OCR приходится.
По опыту - OCR без человека-контролера хорош далеко не всегда.
Потому силы проще бросать не на оптимизацию связки "OCR+оператор" а на ЭДО и получение документов в xml
Потратить на это лишние 500$ (на обзвон и уговор контрагентов) гораздо выгоднее, чем читать бумагу.
В статье не раскрыта еще увлекательнейшая тема "парсинга Pdf" которая может приводить к отличному результату, существенно снижая роль OCR*
Это точно - от человека на 100% не отказаться при оптическом распознавании. Но высвободить хотя бы часть ресурсов - уже хорошо (их как раз можно потратить на обзвон и переход на ЭДО).
Но не все документы можно в ЭДО засунуть. Так что OCR все равно имеет право на жизнь. Поэтому добавляем кросс-проверки, мониторим коэффициент качества, предусматриваем контроль со стороны человека.
Про парсинг ПДФок - история тоже интересная. Если ПДФка с текстовым слоем, то парсится оченб легко. И действительно, результат отличный.
Но сканы документов всё равно в ПДФе идет как графика. И их всё равно распознавать через OCR приходится.