Личный опыт Petr Petrov
225

Зачем Вам на самом деле корпоративная система распознавания документов

Для компаний, использующих бумажный носитель в своем документообороте, остро стоит вопрос цифровизации бизнес-процессов. Ключевой проблемой является сокращение времени на оцифровку данных. На помощь приходят системы распознавания и ввода данных. Однако, зачастую, компании неправильно понимают роль этих систем в документообороте.

В закладки

Основными задачами корпоративной системы распознавания документов является Типизация этих документов, извлечение из них атрибутов и последующая загрузка данных в целевую систему.

(это может быть система электронного документооборота, архив, учетная система и другие...)

Типовой процесс обработки документов в системе распознавания

Компания - заказчик системы, заинтересован в сокращении времени обработки документов. Первое, что приходит на ум, сократить время обработки данных за счет улучшения качества распознавания. Согласитесь, звучит логично, если качество распознавания будет хорошим, то верификатору придется меньше данных исправлять, и данные скорее поступят в целевую систему. Заказчик, еще перед началом проекта пытается узнать, какой процент распознавания исполнитель готов обеспечить.

Реальность же такова, что процент распознавания (к нему мы еще вернемся) в меньшей степени влияет на скорость ввода данных документов в целевые системы.

Надо исходить из того, что Система распознавания - это прежде всего система ввода данных. И главным критерием успешности такой системы для заказчика должно быть время, сэкономленное на вводе данных с использованием этой системы. Как будут достигаться данные результаты - проблема исполнителя, внедряющего систему.

Как действительно сократить время ввода данных?

Для этого необходимо правильно выстроить процесс обработки документов в соответствии с бизнес-процессами, инфраструктурой и возможностями заказчика.

Начнем с самого тормозящего процесс обработки этапа : верификации

Есть заблуждение, что в процессе модернизации и обучения системы, от верификации можно будет совсем отказаться, но, если точность распознаваемых атрибутов критична, совсем отказаться от верификации не получится. Современные технологии пока на такое не способны.

Я предлагаю начать выстраивать процесс верификации исходя из того, что распознавания нет вообще. И ввод данных с бумаги нужно оптимизировать так, чтобы это было гораздо быстрее, чем простое перепечатывание с бумаги. Как же это сделать?

  • Интерфейс, в котором на один экран выводится изображение документа и поля для внесения атрибутов
  • Опыт показывает, что большая часть данных уже есть у заказчика в различных системах и базах данных. Ими можно воспользоваться. Например для заполнения полей контрагентов, достаточно заполнить поля ИНН, КПП и все данные контрагентов заполнятся из связанных систем (при этом номера гораздо точнее распознаются, чем неструктурированные данные). Тоже самое можно сделать с табличными данными товаров, инвентаря и проч...
  • Можно реализовать поиск данных прямо в поле атрибута в любой сторонней системе или БД. и пользователь может быстро найти нужное значение в справочнике.
  • Форматные проверки позволяют сразу обращать на себя внимание верификатора и даже трансформировать данные - приводить их к нужному, единому формату. К тому же сокращают возможные ошибки до минимума.
  • Вместо того, чтобы вручную забивать текст в поля достаточно выделить его на изображении, что значительно ускоряет ввод.
  • Если от контрагента приходит комплект документов, содержащих одинаковые атрибуты, можно организовать междокументные проверки, позволяющие заполнять атрибуты, уже проверенные в других документах.
  • Если понаблюдать за верификатором, то можно заметить, что даже работая на одном экране с изображением, верификатор тратит много времени на поиск атрибута на изображении. Системы распознавания позволяют выносить область изображения с предполагаемым атрибутом непосредственно к самому полю, что значительно сокращает время на поиск этого атрибута.

Эти и многие другие решения позволяют значительно сократить время ввода данных. С использованием распознавания его можно сократить еще больше.

Также, современные системы распознавания имеют возможность автоматического дообучения системы. Система запоминает, что пользователь исправил атрибут и в следующий раз в подобном случае постарается учесть исправления пользователя.

Еще одной проблемой при обработке документов в системе распознавания является пренебрежение Заказчиком требованиям к сканируемым образам. Соблюдение этих требований достаточно критично для распознавания.

Зачастую, заказчик ожидает, что ситема распознавания встроится в общий бизнес-процесс и боится вносить в него изменения. К сожалению, в системах распознавания магии нет, и для достижения максимального результата приходится корректировать процессы.

  • Создавать регламенты сканирования/фотографирования документов,
  • Заказывать разработку приложения для сканирования (особенно, если приходится сканировать специфические документы непосредственно в местах создания документации - это могут быть маркировки оборудования, показатели счетчиков, документы клиентов и др.)
  • Иногда для корректного формирования комплектов или типизации приходится клеить штрихкод на документы.
  • выделять отдельные роли для верификации или сканирования.
  • Настройка сканеров определенным образом.

При этом часть глобальной бизнес-логики может быть упрощена с помощью системы распознавания. Например, реализовать сканирование документов клиента банка в региональных отделениях напрямую в систему распознавания. Формирование реестров документов и т.д.

Вот когда процесс уже выстроен и работа налажена (началась опытная эксплуатация), можно увеличивать качество распознавания, тем более что мы уже отказались от части ненужных атрибутов и можем сэкономить на времени разработки шаблонов распознавания.

Мы плавно подошли к показателю качества распознавания. Заказчик часто требует показать процент распознавания. Часто, интеграторы выдают за процент распознавания - процент уверенности в распознавании - это показатель OCR системы, отображающей насколько сама система уверена в распознанном атрибуте. Но проблема в том, что если атрибут извлечётся из неправильного места на документе, или туда попадет лишний текст, и при этом сам текст распознается хорошо - система вполне может решить, что она на 100% уверена в распознанном атрибуте, а это не то, что нам нужно. Единственный способ получить правильный процент распознавания - запомнить, что система распознала и сравнить со значением после верификации. Часто, в коробке платформы распознавания такого показателя нет, и для его вывода нужна доработка системы, которая не всегда экономически оправдана.

#документооборот #OCR #распознавание

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Petr Petrov", "author_type": "self", "tags": ["\u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u0435","\u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u043e\u0431\u043e\u0440\u043e\u0442","ocr"], "comments": 2, "likes": 0, "favorites": 9, "is_advertisement": false, "subsite_label": "life", "id": 60896, "is_wide": false, "is_ugc": true, "date": "Tue, 12 Mar 2019 14:55:43 +0300" }
{ "id": 60896, "author_id": 268039, "diff_limit": 1000, "urls": {"diff":"\/comments\/60896\/get","add":"\/comments\/60896\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/60896"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 199123 }

2 комментария 2 комм.

Популярные

По порядку

0

Да Где же можно заказать систему распознавания ))?

Ответить
0

Обычно, заказчики идут к вендорам таких систем, и если проект сложный, Вендор рекомендует одного из партнеров - интеграторов, который осуществляет аналитику, разработку, внедрение и поддержку системы.
Можно обратиться и к интегратору, занимающемся данными системами, напрямую.

Ответить
0
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Хакеры смогли обойти двухфакторную
авторизацию с помощью уговоров
Подписаться на push-уведомления
{ "page_type": "default" }