60 дней фильмов и сериалов
по промокоду:
VC60
Забрать
60 дней подписки Яндекс Плюс бесплатно для новых пользователей, ранее не оформлявших подписку Яндекс Плюс либо подписки, её включающие, при условии привязки банковской карты. Далее — автопродление: 199 ₽/месяц. Действует на территории РФ. Активировать до 31.10.2021 г. https://hd.kinopoisk.ru/gift. Условия: clck.ru/FMQND.
Личный опыт
Petr Petrov

Зачем Вам на самом деле корпоративная система распознавания документов

Для компаний, использующих бумажный носитель в своем документообороте, остро стоит вопрос цифровизации бизнес-процессов. Ключевой проблемой является сокращение времени на оцифровку данных. На помощь приходят системы распознавания и ввода данных. Однако, зачастую, компании неправильно понимают роль этих систем в документообороте.

Основными задачами корпоративной системы распознавания документов является Типизация этих документов, извлечение из них атрибутов и последующая загрузка данных в целевую систему.

(это может быть система электронного документооборота, архив, учетная система и другие...)

Типовой процесс обработки документов в системе распознавания

Компания - заказчик системы, заинтересован в сокращении времени обработки документов. Первое, что приходит на ум, сократить время обработки данных за счет улучшения качества распознавания. Согласитесь, звучит логично, если качество распознавания будет хорошим, то верификатору придется меньше данных исправлять, и данные скорее поступят в целевую систему. Заказчик, еще перед началом проекта пытается узнать, какой процент распознавания исполнитель готов обеспечить.

Реальность же такова, что процент распознавания (к нему мы еще вернемся) в меньшей степени влияет на скорость ввода данных документов в целевые системы.

Надо исходить из того, что Система распознавания - это прежде всего система ввода данных. И главным критерием успешности такой системы для заказчика должно быть время, сэкономленное на вводе данных с использованием этой системы. Как будут достигаться данные результаты - проблема исполнителя, внедряющего систему.

Как действительно сократить время ввода данных?

Для этого необходимо правильно выстроить процесс обработки документов в соответствии с бизнес-процессами, инфраструктурой и возможностями заказчика.

Начнем с самого тормозящего процесс обработки этапа : верификации

Есть заблуждение, что в процессе модернизации и обучения системы, от верификации можно будет совсем отказаться, но, если точность распознаваемых атрибутов критична, совсем отказаться от верификации не получится. Современные технологии пока на такое не способны.

Я предлагаю начать выстраивать процесс верификации исходя из того, что распознавания нет вообще. И ввод данных с бумаги нужно оптимизировать так, чтобы это было гораздо быстрее, чем простое перепечатывание с бумаги. Как же это сделать?

  • Интерфейс, в котором на один экран выводится изображение документа и поля для внесения атрибутов
  • Опыт показывает, что большая часть данных уже есть у заказчика в различных системах и базах данных. Ими можно воспользоваться. Например для заполнения полей контрагентов, достаточно заполнить поля ИНН, КПП и все данные контрагентов заполнятся из связанных систем (при этом номера гораздо точнее распознаются, чем неструктурированные данные). Тоже самое можно сделать с табличными данными товаров, инвентаря и проч...
  • Можно реализовать поиск данных прямо в поле атрибута в любой сторонней системе или БД. и пользователь может быстро найти нужное значение в справочнике.
  • Форматные проверки позволяют сразу обращать на себя внимание верификатора и даже трансформировать данные - приводить их к нужному, единому формату. К тому же сокращают возможные ошибки до минимума.
  • Вместо того, чтобы вручную забивать текст в поля достаточно выделить его на изображении, что значительно ускоряет ввод.
  • Если от контрагента приходит комплект документов, содержащих одинаковые атрибуты, можно организовать междокументные проверки, позволяющие заполнять атрибуты, уже проверенные в других документах.
  • Если понаблюдать за верификатором, то можно заметить, что даже работая на одном экране с изображением, верификатор тратит много времени на поиск атрибута на изображении. Системы распознавания позволяют выносить область изображения с предполагаемым атрибутом непосредственно к самому полю, что значительно сокращает время на поиск этого атрибута.

Эти и многие другие решения позволяют значительно сократить время ввода данных. С использованием распознавания его можно сократить еще больше.

Также, современные системы распознавания имеют возможность автоматического дообучения системы. Система запоминает, что пользователь исправил атрибут и в следующий раз в подобном случае постарается учесть исправления пользователя.

Еще одной проблемой при обработке документов в системе распознавания является пренебрежение Заказчиком требованиям к сканируемым образам. Соблюдение этих требований достаточно критично для распознавания.

Зачастую, заказчик ожидает, что ситема распознавания встроится в общий бизнес-процесс и боится вносить в него изменения. К сожалению, в системах распознавания магии нет, и для достижения максимального результата приходится корректировать процессы.

  • Создавать регламенты сканирования/фотографирования документов,
  • Заказывать разработку приложения для сканирования (особенно, если приходится сканировать специфические документы непосредственно в местах создания документации - это могут быть маркировки оборудования, показатели счетчиков, документы клиентов и др.)
  • Иногда для корректного формирования комплектов или типизации приходится клеить штрихкод на документы.
  • выделять отдельные роли для верификации или сканирования.
  • Настройка сканеров определенным образом.

При этом часть глобальной бизнес-логики может быть упрощена с помощью системы распознавания. Например, реализовать сканирование документов клиента банка в региональных отделениях напрямую в систему распознавания. Формирование реестров документов и т.д.

Вот когда процесс уже выстроен и работа налажена (началась опытная эксплуатация), можно увеличивать качество распознавания, тем более что мы уже отказались от части ненужных атрибутов и можем сэкономить на времени разработки шаблонов распознавания.

Мы плавно подошли к показателю качества распознавания. Заказчик часто требует показать процент распознавания. Часто, интеграторы выдают за процент распознавания - процент уверенности в распознавании - это показатель OCR системы, отображающей насколько сама система уверена в распознанном атрибуте. Но проблема в том, что если атрибут извлечётся из неправильного места на документе, или туда попадет лишний текст, и при этом сам текст распознается хорошо - система вполне может решить, что она на 100% уверена в распознанном атрибуте, а это не то, что нам нужно. Единственный способ получить правильный процент распознавания - запомнить, что система распознала и сравнить со значением после верификации. Часто, в коробке платформы распознавания такого показателя нет, и для его вывода нужна доработка системы, которая не всегда экономически оправдана.

{ "author_name": "Petr Petrov", "author_type": "self", "tags": ["\u0440\u0430\u0441\u043f\u043e\u0437\u043d\u0430\u0432\u0430\u043d\u0438\u0435","\u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u043e\u0431\u043e\u0440\u043e\u0442","ocr"], "comments": 3, "likes": 1, "favorites": 12, "is_advertisement": false, "subsite_label": "life", "id": 60896, "is_wide": true, "is_ugc": true, "date": "Tue, 12 Mar 2019 14:55:43 +0300", "is_special": false }
0
3 комментария
Популярные
По порядку
0

Да Где же можно заказать систему распознавания ))?

Ответить
0

Обычно, заказчики идут к вендорам таких систем, и если проект сложный, Вендор рекомендует одного из партнеров - интеграторов, который осуществляет аналитику, разработку, внедрение и поддержку системы.
Можно обратиться и к интегратору, занимающемся данными системами, напрямую.

Ответить
0

Петр, привет! Как с вами можно связаться? Интересует тема по документообороту.

Ответить
Читать все 3 комментария
Дайджест новостей Сбера: AR-экскурсия, распознавание животных и премия для учёных

Прогулки по Политехническому музею с роботом Сепулькой, чудеса компьютерного зрения, научная премия — начало сентября в Сбере выдалось насыщенным. Делимся с вами самыми интересными новостями компании во втором выпуске нашего дайджеста.

Rolls-Royce успешно испытала свой первый электрический самолёт Статьи редакции

Spirit of Innovation провёл в воздухе около 15 минут.

Spirit of Innovation Rolls-Royce
7 полезных ссылок для тех, кто хочет попробовать свои силы в Big Data

Многим кажется, что работа в сфере Big Data – это как выход в открытый космос: масштабно, высокотехнологично, но очень сложно и недоступно для простых смертных. Разрушает этот миф Александр Качурин, руководитель службы исследования больших данных Tele2. Он собрал ссылки на полезные ресурсы, которые помогут начать путь к профессии Big Data.

«Вам звонок из Циан»: зачем компания скупает номера телефонов и как call-tracking помогает клиентам сервиса

Подменные номера телефонов защищают от нежелательных звонков и упрощают аналитику продаж

Apple отключила функцию «Частный узел» в России — она позволяла скрыть IP-адрес Статьи редакции

Накануне сенаторы Совета Федерации пригрозили компании штрафами и уголовными делами за отказ в сотрудничестве.

Выращивает салат в автоматах и хочет спасти мир: как немецкая Infarm привлекла $315 млн на «рукколу для богатых» Статьи редакции

Пока одни говорят, что вертикальные фермы могут спасти планету, другие уверены — это всего лишь развлечение для богатых. Как работает отрасль, разбирается Wired.

Вертикальные фермы компании Infarm Infarm
Как работать удалённо по московскому времени, если живёшь в Сибири

Команда ИТ-компании Southbridge — о преодолении трудностей часовых поясов: графике работы, планировании и отдыхе.

«Цифровые кочевники» — деловые туристы нового времени

Человека из сферы диджитал, который свободно работает в любой точке мира, где ему комфортно и есть интернет, называют «цифровой кочевник» или «диджитал номад». Более 20 стран поддерживают такой формат работы и путешествий, рассчитывая на профит для внутренней экономики. Плюсы очевидны — страны пополняют налоговый бюджет и восстанавливают…

Видео в фармотрасли: как использовать формат

Собрали удачные примеры видеороликов и рассказали об эффективных механиках для продвижения фармацевтических брендов.

Авторы бывшего канала VTimes узнали детали нового налогового режима для малого бизнеса от ФНС — ставка 7-8% от доходов Статьи редакции

Есть ограничения по выручке и видам деятельности — но их пока не определили.

Как запустить e-commerce бизнес на зарплату. Полный гайд с нуля до выручки в миллион рублей в месяц

По заявкам участников телеграм канала @vikenot опишу свой опыт и опыт наших клиентов, по запуску бизнеса почти без бюджета.

null