60 дней фильмов и сериалов
по промокоду:
VC60
Забрать
60 дней подписки Яндекс Плюс бесплатно для новых пользователей, ранее не оформлявших подписку Яндекс Плюс либо подписки, её включающие, при условии привязки банковской карты. Далее — автопродление: 199 ₽/месяц. Действует на территории РФ. Активировать до 31.10.2021 г. https://hd.kinopoisk.ru/gift. Условия: clck.ru/FMQND.
Личный опыт
Petr Petrov

Зачем Вам на самом деле корпоративная система распознавания документов

Для компаний, использующих бумажный носитель в своем документообороте, остро стоит вопрос цифровизации бизнес-процессов. Ключевой проблемой является сокращение времени на оцифровку данных. На помощь приходят системы распознавания и ввода данных. Однако, зачастую, компании неправильно понимают роль этих систем в документообороте.

Основными задачами корпоративной системы распознавания документов является Типизация этих документов, извлечение из них атрибутов и последующая загрузка данных в целевую систему.

(это может быть система электронного документооборота, архив, учетная система и другие...)

Типовой процесс обработки документов в системе распознавания

Компания - заказчик системы, заинтересован в сокращении времени обработки документов. Первое, что приходит на ум, сократить время обработки данных за счет улучшения качества распознавания. Согласитесь, звучит логично, если качество распознавания будет хорошим, то верификатору придется меньше данных исправлять, и данные скорее поступят в целевую систему. Заказчик, еще перед началом проекта пытается узнать, какой процент распознавания исполнитель готов обеспечить.

Реальность же такова, что процент распознавания (к нему мы еще вернемся) в меньшей степени влияет на скорость ввода данных документов в целевые системы.

Надо исходить из того, что Система распознавания - это прежде всего система ввода данных. И главным критерием успешности такой системы для заказчика должно быть время, сэкономленное на вводе данных с использованием этой системы. Как будут достигаться данные результаты - проблема исполнителя, внедряющего систему.

Как действительно сократить время ввода данных?

Для этого необходимо правильно выстроить процесс обработки документов в соответствии с бизнес-процессами, инфраструктурой и возможностями заказчика.

Начнем с самого тормозящего процесс обработки этапа : верификации

Есть заблуждение, что в процессе модернизации и обучения системы, от верификации можно будет совсем отказаться, но, если точность распознаваемых атрибутов критична, совсем отказаться от верификации не получится. Современные технологии пока на такое не способны.

Я предлагаю начать выстраивать процесс верификации исходя из того, что распознавания нет вообще. И ввод данных с бумаги нужно оптимизировать так, чтобы это было гораздо быстрее, чем простое перепечатывание с бумаги. Как же это сделать?

  • Интерфейс, в котором на один экран выводится изображение документа и поля для внесения атрибутов
  • Опыт показывает, что большая часть данных уже есть у заказчика в различных системах и базах данных. Ими можно воспользоваться. Например для заполнения полей контрагентов, достаточно заполнить поля ИНН, КПП и все данные контрагентов заполнятся из связанных систем (при этом номера гораздо точнее распознаются, чем неструктурированные данные). Тоже самое можно сделать с табличными данными товаров, инвентаря и проч...
  • Можно реализовать поиск данных прямо в поле атрибута в любой сторонней системе или БД. и пользователь может быстро найти нужное значение в справочнике.
  • Форматные проверки позволяют сразу обращать на себя внимание верификатора и даже трансформировать данные - приводить их к нужному, единому формату. К тому же сокращают возможные ошибки до минимума.
  • Вместо того, чтобы вручную забивать текст в поля достаточно выделить его на изображении, что значительно ускоряет ввод.
  • Если от контрагента приходит комплект документов, содержащих одинаковые атрибуты, можно организовать междокументные проверки, позволяющие заполнять атрибуты, уже проверенные в других документах.
  • Если понаблюдать за верификатором, то можно заметить, что даже работая на одном экране с изображением, верификатор тратит много времени на поиск атрибута на изображении. Системы распознавания позволяют выносить область изображения с предполагаемым атрибутом непосредственно к самому полю, что значительно сокращает время на поиск этого атрибута.

Эти и многие другие решения позволяют значительно сократить время ввода данных. С использованием распознавания его можно сократить еще больше.

Также, современные системы распознавания имеют возможность автоматического дообучения системы. Система запоминает, что пользователь исправил атрибут и в следующий раз в подобном случае постарается учесть исправления пользователя.

Еще одной проблемой при обработке документов в системе распознавания является пренебрежение Заказчиком требованиям к сканируемым образам. Соблюдение этих требований достаточно критично для распознавания.

Зачастую, заказчик ожидает, что ситема распознавания встроится в общий бизнес-процесс и боится вносить в него изменения. К сожалению, в системах распознавания магии нет, и для достижения максимального результата приходится корректировать процессы.

  • Создавать регламенты сканирования/фотографирования документов,
  • Заказывать разработку приложения для сканирования (особенно, если приходится сканировать специфические документы непосредственно в местах создания документации - это могут быть маркировки оборудования, показатели счетчиков, документы клиентов и др.)
  • Иногда для корректного формирования комплектов или типизации приходится клеить штрихкод на документы.
  • выделять отдельные роли для верификации или сканирования.
  • Настройка сканеров определенным образом.

При этом часть глобальной бизнес-логики может быть упрощена с помощью системы распознавания. Например, реализовать сканирование документов клиента банка в региональных отделениях напрямую в систему распознавания. Формирование реестров документов и т.д.

Вот когда процесс уже выстроен и работа налажена (началась опытная эксплуатация), можно увеличивать качество распознавания, тем более что мы уже отказались от части ненужных атрибутов и можем сэкономить на времени разработки шаблонов распознавания.

Мы плавно подошли к показателю качества распознавания. Заказчик часто требует показать процент распознавания. Часто, интеграторы выдают за процент распознавания - процент уверенности в распознавании - это показатель OCR системы, отображающей насколько сама система уверена в распознанном атрибуте. Но проблема в том, что если атрибут извлечётся из неправильного места на документе, или туда попадет лишний текст, и при этом сам текст распознается хорошо - система вполне может решить, что она на 100% уверена в распознанном атрибуте, а это не то, что нам нужно. Единственный способ получить правильный процент распознавания - запомнить, что система распознала и сравнить со значением после верификации. Часто, в коробке платформы распознавания такого показателя нет, и для его вывода нужна доработка системы, которая не всегда экономически оправдана.

{ "author_name": "Petr Petrov", "author_type": "self", "tags": ["\u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u0435","\u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u043e\u0431\u043e\u0440\u043e\u0442","ocr"], "comments": 3, "likes": 1, "favorites": 12, "is_advertisement": false, "subsite_label": "life", "id": 60896, "is_wide": true, "is_ugc": true, "date": "Tue, 12 Mar 2019 14:55:43 +0300", "is_special": false }
0
3 комментария
Популярные
По порядку
0

Да Где же можно заказать систему распознавания ))?

Ответить
0

Обычно, заказчики идут к вендорам таких систем, и если проект сложный, Вендор рекомендует одного из партнеров - интеграторов, который осуществляет аналитику, разработку, внедрение и поддержку системы.
Можно обратиться и к интегратору, занимающемся данными системами, напрямую.

Ответить
0

Петр, привет! Как с вами можно связаться? Интересует тема по документообороту.

Ответить
Читать все 3 комментария
acoount ukrali
За чей счёт цветёт Крокус?

За историей, которую я хочу Вам поведать стоит реальный человек, с личным, пусть, и негативным опытом. Если данный опыт поможет Вам избежать подобных ситуаций в будущем – для меня это будет уже победа. Любое высказывание в данной публикации является моим личным субъективным мнением и оценочным суждением о людях, ситуациях, фактах.

«Вам звонок из Циан»: зачем компания скупает номера телефонов и как call-tracking помогает клиентам сервиса

Подменные номера телефонов защищают от нежелательных звонков и упрощают аналитику продаж

Ужасный интернет от Мегафона

2 месяца назад приобрела сим карту оператора мегафон и все это время не могу пользоваться мобильным интернетом в центре СПб, внутри помещения по адресу Казанская 3(на улице возле этого дома прекрасно работает).
Телефон показывает полную шкалу сотовой связи и 4g интернет, но скорость нулевая.
Техподдержка все это время говорит о том, что ведутся…

Сколько студент зарабатывает на дизайне за месяц? Опыт с цифрами

Меня зовут Дима, мне 21 год и я учусь на четвёртом курсе в Московском Авиационном Институте на факультете экономики, параллельно работаю дизайнером. Моя основная специализация — креативный, графический и UI/UX дизайн, а также SMM дизайн, которым по воле случая мне приходилось заниматься довольно большое количество времени по просьбам моих…

Дайджест новостей Сбера: AR-экскурсия, распознавание животных и премия для учёных

Прогулки по Политехническому музею с роботом Сепулькой, чудеса компьютерного зрения, научная премия — начало сентября в Сбере выдалось насыщенным. Делимся с вами самыми интересными новостями компании во втором выпуске нашего дайджеста.

Конференция GoGlobal! соберет ведущих маркетологов

29 сентября 2021 года впервые состоится GoGlobal! — однодневная онлайн-конференция для маркетологов, заинтересованных в ускорении глобального присутствия своих кампаний.

Как работать удалённо по московскому времени, если живёшь в Сибири

Команда ИТ-компании Southbridge — о преодолении трудностей часовых поясов: графике работы, планировании и отдыхе.

«Ну, мальчики, вот и я»: мошенник Виктор Люстиг, который продал Эйфелеву башню на металлолом и обманул Аль Капоне Статьи редакции

Виктор Люстиг с 19 лет обманывал людей в США и странах Европы, сменил десятки паспортов и 47 псевдонимов, несколько раз сбежал от полиции. А в тюрьму попал из-за женщины.

Виктор Люстиг
Что может быть важнее прибыли. ESG-словарь для инвестора

В 2020–2021 гг. резко возросла популярность темы ответственного инвестирования, или ESG. Идея о том, что инвестиции должны не только приносить прибыль, но и поддерживать экологию и социальную справедливость, привела к тому, что ESG-фонды стали играть значимую роль на мировых рынках капитала.

Меня сняли с рейса S7

Вот так я попал с S7. Возможно, это справедливо и для других авиакомпаний, но проверять не хочу)))

null