Распознать нераспознаваемое: как работает интеллектуальная оцифровка нетиповых и архивных документов

Привет! Меня зовут Илья Петухов. Я работаю в ИТ-компании Directum и занимаюсь развитием AI-продуктов. Помогаю бизнесу решать задачи, используя сервисы искусственного интеллекта (ИИ).

В статье я рассказываю, как работает интеллектуальное распознавание документов, и зачем оно бизнесу. А чтобы читателю было понятнее, привожу примеры из собственной практики.

Вообще мой опыт работы в области автоматизации бизнес-процессов переваливает за 8 лет. В последние годы специализируюсь конкретно на теме ИИ. Вместе с коллегами мы разработали новый AI-сервис по 100%-ному распознаванию документов, который за человека обрабатывает сотни документов в день.

Какие документы обычно просят оцифровать?

Количество запросов, связанных с переводом бумажных документов в цифровой, с каждым годом растет на 25-30%. Только за 2019 год исследование закупок на оцифровку документов (по 44-ФЗ и 223-ФЗ) показало объем рынка в 3,2 млрд рублей.

К нам в компанию регулярно поступают запросы на обработку и оцифровку документов.

По статистике Directum за 2021 год, 2 из 10 обращений связаны с обработкой и оцифровкой нетиповых документов. Сюда относится различная кадастровая и проектно-сметная документация, чертежи, рукописные документы и т.д.

Здесь стоит сделать нормативно-правовое отступление.

Согласно Федеральным законам №125-ФЗ от 22.10.2004 «Об архивном деле в Российской Федерации» и №221-ФЗ от 24.07.2007 г. «О кадастровой деятельности», а также Приказу Минкультуры России №558 от 25.08.2010 г. «Об утверждении «Перечня типовых управленческих архивных документов» такие документы требуют длительного срока хранения:

  • проектную документацию следует хранить в архиве 20 лет (капитальное строительство, технологическая и конструкторская документация на изобретения и промышленные образцы);
  • приказы по личному составу – 75 лет, по основной деятельности – постоянно;
  • кадастровые документы – либо постоянно, либо до изменения статуса на «Аннулирован», после чего хранить еще 10 лет.

Объем нетиповых документов с каждым годом увеличивается, под их хранение требуется все больше архивных площадей, искать информацию становится сложнее. Законодательство в РФ уже идет навстречу бизнесу и частично решает вопросы по хранению, поиску, предоставлению выписок и отчетности. Различные ГОСТы и нормативно-правовые акты разрешают вести реестр документов в электронном виде, а также хранить сканированные копии. Но технически не каждая информационная система класса PDM, PLM или CAD готова предоставить возможность хранения, согласования и подписания, поэтому документы хранят в бумаге.

Почему для обработки чертежей и архивных приказов стоит рассматривать не только человека?

Вернемся к запросам на оцифровку нетиповых документов. Поделюсь двумя из них:

1. Первый был связан с извлечением данных из чертежей деталей. Заказчику было необходимо отсканировать чертеж, извлечь реквизиты и перенести их в архивные системы, распределив по папкам проектов и деталей.

Объем документов: 150 тыс. Срок оцифровки: 3 месяца.

Пример чертежа:

2. Второй запрос поступил на создание электронного архива приказов, датированных 1940-м годом и позже. Документы были распечатаны на печатной машинке и от руки.

Объем документов: 300 тыс. Срок оцифровки: 6 мес.

Так выглядел один из приказов:

В обеих ситуациях компании видели возможным только ручную обработку – сканирование и оцифровку своими силами. Но ручная обработка документов неминуемо связана с рисками.

  • Риск №1. Если нанять много дешевых ресурсов, то скорость обработки будет выше, но может пострадать качество.

  • Риск №2. Если выделить профессиональные кадры для этой работы, то качество будет высоким, скорость обработки – выше, но и стоимость соразмерно увеличится.

А заказчику хочется, чтобы было качественно, быстро, не сильно дорого и без участия человека. Что ж, и для такого запроса есть предложение.

Человеку нужен искусственный интеллект

Если вы проанализируете рынок решений по распознаванию документов, то увидите, что бизнесу предлагается широкий выбор инструментов. Но можно ли оцифровать сложные документы за приемлемые сроки и бюджеты, получив при этом необходимое заказчику качество? Да, если использовать совместную работу искусственного и человеческого интеллекта.

Делегировав машине (сервису искусственного интеллекта) извлечение текстового слоя и реквизитного состава, человек оставляет за собой только проверку результата и его дополнение данными. Для верификации не потребуется нанимать других сотрудников и увеличивать фонд оплаты труда. Достаточно грамотно и гибко выстроить текущей бизнес-процесс с учетом нового звена в оцифровке.

Сервисы по интеллектуальной обработке удобны еще и тем, что могут использоваться как на собственных серверных мощностях, так и через подключение к внешним облачным сервисам. Все зависит от требований безопасности и готовности компании гибко адаптировать свои процессы.

Некоторые сервисы предлагают полный аутсорсинг обработки и распознания документов. Пример – 100%-ное распознавание от Directum Ario.

Как работает интеллектуальная оцифровка?

1. Компания передает скан-копии в сервис распознавания, интегрированный с информационной системой.

2. Перед верификацией документы проходят интеллектуальную обработку сервисами Directum Ario. Сервисы извлекают текстовый слой и проводят классификацию документа, а также извлекают реквизитный состав.

3. Верификаторы проверяют корректность извлеченных фактов, при необходимости дозаполняют данные.

4. Обратно ответственный сотрудник получает уже результат в виде полностью распознанного документа со всем набором реквизитов.

В чем преимущества 100%-ного распознавания для бизнеса?

  • Обрабатывать можно любые типы документов, даже с рукописными реквизитами.
  • Сотрудники продолжают работать в привычных интерфейсах. Результат распознавания приходит в свое окно информационной системы.
  • Вся обработка происходит в облаке, поэтому нет необходимости разворачивать и поддерживать собственное серверное оборудование.
  • Сотрудники заказчика не проверяют результат распознавания, они занимаются только своими задачами, а рутина уходит в сторону.

Благодаря симбиозу «искусственный интеллект + человек», мы получаем высокое качество обработки документов. При этом не уменьшается скорость.

Что делать дальше?

Если в вашей компании встает вопрос оцифровки нетиповых или исторических документов, не спешите загружать сотрудников ручной обработкой. Выделите время, чтобы проанализировать технические решения, которые сегодня есть на рынке. Сравните их по трем критериям – качество, скорость и стоимость, и выберите тот продукт, который устраивает вас как минимум по двум параметрам.

Предварительно рекомендую ответить на вопросы из чек-листа, чтобы понять масштаб своей задачи и представить состав требований, которым должен удовлетворять сервис по оцифровке.

Чек-лист «Как за 5 минут понять, какой сервис оцифровки документов вам нужен»

1. Какие виды документов нужно оцифровать – организационно-распорядительные, архивные, проектные, кадастровые или др.?

2. Какое их количество?

3. Весь ли объем документов нужно оцифровывать?

4. К какому сроку нужно их обработать?

5. Вы готовы принимать в штат дешевые ресурсы для ручной обработки или будете отвлекать своих сотрудников?

6. Какой бюджет готовы выделить?

7. В вашем электронном архиве есть место для хранения этих документов?

Если в вашей компании есть задача оцифровки нетиповых или архивных документов, и вы не знаете с какой стороны к ней подступить, свяжитесь со мной любым удобный способом: [email protected] или пишите в Facebook. Вместе с вами мы подберем нужное решение.

Планирую написать серию статей о том, как сервисы на основе искусственного интеллекта помогают при работе с документами в бизнес-процессах. Если вам интересна эта тема, подписывайтесь и, конечно, задавайте вопросы.

0
2 комментария
Ivan

Может просто сделать новый формат?
Где слой есть - типа задний просто скан, а верхний цифровой (распознанный), причем сделать кнопку - обновить, где встроенный скрип обновится (в будущем будет умнее ) и сам обновит готовую часть (как вариант удаленно попросит оператора указать что делать с этим участком или обновит алгоритм распознования).
Получится типа живой файл с возможностью автономно улучшать результат за счет новых алгоритмов, а исходник всегда внизу.

Ответить
Развернуть ветку
Петухов Илья
Автор

Иван, предложение интересное и перспективное. Я бы даже на такое посмотрел, если кто-то сделает.
Но ваше решение на перспективу, сейчас это никак не поможет бумажные архивы оцифровать.

Ответить
Развернуть ветку
-1 комментариев
Раскрывать всегда