Распознавание корпоративных документов: как не утонуть в море бумаг?

Мы подсчитали, что ручной ввод данных из типовых форм занимает 6-7 часов в день. Автономная система Smart Document Engine на смартфоне справляется с подобной задачей буквально за минуты. В этой статье мы расскажем о самых эффективных бизнес-кейсах применения нашей мобильной OCR.

Кадр из фильма "Бойцовский клуб" (1999) 
Кадр из фильма "Бойцовский клуб" (1999) 

Когда в вашей компании появляется новый клиент или запустился очередной проект с давним партнером, неизбежно формируется большой объем корпоративных документов. К ним относится вся “первичка”: счета-фактуры, счета на оплату, платежные поручения; документы бухгалтерской и налоговой отчетности (например, справка о доходах физлица). А кроме того уставные, страховые, нотариальные документы, KYC-анкеты, согласия на обработку персональных данных и т.д.

Зачастую компании обрабатывают миллионы листов корпоративных документов с помощью планшетного сканера. Сотрудники сканируют документы и переводят их в PDF-файлы. Поиск нужной информацию в этих копиях иногда превращается в квест.

Нередко банки, государственные компании и госкорпорации привлекают к обработке документов специальные онлайн-сервисы, которые в свою очередь нанимают операторами распознавания третьих лиц, обычно, самозанятых. В этом случае при несущественных затратах у заказчика возникает серьезный риск утечки данных и угроза мошенничества, за что компания и ее CEO скорее всего будут оштрафованы.

Утечки персональных данных могут обернуться для топ-менеджеров банков более серьезными последствиями. Центробанк планирует ввести личную ответственность топ-менеджеров банков за утечки данных, наказывая их "вплоть до дисквалификации".

Кадр из фильма "Вий" (1967) 
Кадр из фильма "Вий" (1967) 

Более надежно обрабатывать данные в безопасном контуре, не используя внешние сервисы. Распознавание корпоративных документов сейчас можно поручить автономной системе на базе искусственного интеллекта, которая инсталлируется на любое устройство. Последней разработкой в этом классе является программный продукт Smart Document Engine. В декабре команда ученых Smart Engines представила его новую версию.

Распознавание корпоративных документов: как не утонуть в море бумаг?

Если говорить коротко, решение позволяет решить две главных задачи:

  • Оцифровка бумажных документов;
  • Оптимизация процессов массового ввода документов.

Как автономная OCR применяется в банках и МФО

Наша система помогает банкам улучшить качество обслуживания и увеличить точность, скорость и безопасность своих операций.

Быстрое распознавание справки о доходах физического лица (ранее – 2-НДФЛ) позволяет банкам полностью автоматизировать процесс так называемого “кредитного конвейера”. Это система обработки заявок на кредитование и принятия решений на основе комплексного анализа данных заемщика. Она анализирует риск невозврата и определяет параметры кредита – условия, лимит, срок, обеспечение. Причем не имеет значения, идет ли речь о микрофинансировании, потребительском кредитовании, автокредитах, ипотеке.

Распознавание корпоративных документов: как не утонуть в море бумаг?

Технология распознавания обнаруживает и извлекает из справки о доходах все данные табличной части, в том числе при размещении информации на двух страницах. Система обрабатывает до нескольких сотен атрибутов, содержащихся в справке о доходах.

Таким образом, автономная OCR для смартфона помогает банкам ускорить процесс коммуникации с клиентом и, что не менее важно, сократить число ошибок ввода, которые приводят к необоснованным отказам.

Технологии распознавания Smart Engines используются в банках не только для обработки документов, но и для считывания данных QR-кодов, банковских карт и при сканировании номеров телефонов. Об этом мы подробно рассказали в нашем блоге.

Где OCR может использоваться еще?

Автоматизация бухгалтерской отчетности

Давайте представим себе компанию Х, занимающуюся продажей гидравлического оборудования. В ней работает бухгалтер, который контролирует участок товарно-материальных ценностей (ТМЦ) и отвечает за оформление процессов закупки материалов, товаров и услуг. Ежедневно он обрабатывает по 60-70 первичных документов. На каждый из них у него уходит от 5 до 10 минут. То есть в день бухгалтер-материалист тратит на эти процессы по 6-7 часов.

Теперь предположим, что сотрудник вводит данные из документов не вручную, а с помощью системы распознавания для десктопных, серверных и мобильных платформ. OCR извлекает атрибуты счета-фактуры за 2-3 секунды, платежного требования – за 2 секунды. Иначе говоря, те же самые 60-70 документов решение обрабатывает за считаные минуты. При автоматическом вводе снижается и вероятность ошибки, исключается риск утечки.

Упрощение аудиторских проверок

Выездные аудиторы обычно работают в офисе клиента. Согласитесь, в условиях такой «полевой» работы каждая минута на счету. Вспомним, сколько стоит рабочее время таких выездных сотрудников. Такой режим задает высокую планку для допустимого времени извлечения данных из документа. А какова цена ошибки при вводе данных из важных бухгалтерских документов? Точность считывания данных для аудитора особенно важна.

Автоматизация программ лояльности

Хотя в мире уже сформировался тренд на автоматизацию процессов в работе с программой лояльности, многие компании по-прежнему предпочитают действовать по старинке: взамен заполненной от руки бумажной анкеты дают пластиковую карточку. При ручной обработке результатов анкетирования процент ошибок составляет около 30%, в то время как автоматический ввод данных обеспечивает гораздо более высокий уровень точности.

Распознавание корпоративных документов: как не утонуть в море бумаг?

Smart Document Engine также обеспечивает защиту персональных данных пользователей программ лояльности. Это наиболее надежный вариант обработки персональных данных - в этом случае информация не покидает контур безопасности. Если оператор персональных данных привлекает к их обработке внешних исполнителей, то это создает риск утечки. Пример тому - “Спортмастер”.

31 декабря 2022 г. в одном из телеграмм-каналов был опубликован архив с данными клиентов "Спортмастера". В распоряжении злоумышленников оказались имена, даты рождения, номера телефонов и адреса электронных почт. Этот архив содержит всего 1,655 млн строк информации о пользователях.

"Спортмастер" объявил о начале расследования, которое должно выяснить причины инцидента. По предварительным данным, утечка произошла через одного из подрядчиков компании, который имел доступ к указанной информации. Название компании-подрядчика, попавшего под подозрение, "Спортмастер" не уточняет.

Но вернемся к нашему лонгриду. Где еще можно применять нашу безопасную OCR?

Обработка KYC-анкет

Система KYC – Know Your Customer или Знай своего клиента (ЗСК) – это процедура идентификации контрагентов, обязательная для банков, бирж, криптобирж и букмекерских контор. С ее помощью организации защищают себя от риска работы с мошенниками, а также от контактов с лицами, внесенными в списки экстремистов и террористов.

В соответствии с этим принципом компании задают своим клиентам вопросы об их финансовой деятельности и т.д. Но сбор данных – это лишь первый этап, после которого следует обработка полученной информации. Система распознавания документов не только в разы увеличивает качество проверки данных из KYC-анкет, но и снижает санкционные риски.

Помимо этого Smart Engines проверит подлинность удостоверяющих документов, найдет признаки редактирования файлов и установит факты компрометации изображений, которые предъявляются в ходе онбординга клиентов.

Распознавание корпоративных документов: как не утонуть в море бумаг?

Обработка ПЦР-тестов

Сейчас в России уже не действуют жесткие ограничительные меры, связанные с распространением коронавируса COVID-19, и мир вернулся к нормальному режиму жизни. Но угроза новых вспышек заболевания по-прежнему остается. Система распознавания документов Smart Document Engine позволяет упростить процедуру проведения ПЦР-тестов.

О том, как увеличить эффективность этой процедуры, мы подробно рассказывали в нашем блоге.

Напомним, что первый этап автоматизации ПЦР-тестирования – ввод персональных данных клиента и заключение договора на оказание медицинских услуг. Smart Engines предлагает продукт для автоматизации ввода персональных данных.

Распознавание корпоративных документов: как не утонуть в море бумаг?

И второй этап – это контроль валидности проведенных тестов. Система Smart Document Engine поможет проверить результаты теста и в небольшом офисе на 100 человек, и в торговых центрах, и транспортных узлах, через которые проходят тысячи человек в день. Система считывает данные вне зависимости от формы результатах ПЦР-теста. Единого шаблона таких справок пока нет.

Обработка логистической документации

В качестве примера представим себе логистический склад, где водитель-экспедитор в соответствии с универсальным передаточным документом (УПД) или товарной накладной по форме ТОРГ-12 передает кладовщику под ответственное хранение весь товар. Какое оборудование, помимо шариковой ручки, в такие моменты под рукой? Максимум – терминал сбора данных или какой-то смартфон. Автономная OCR Smart Document Engine для мобильного телефона значительно ускорит работу кладовщика.

Распознавание корпоративных документов: как не утонуть в море бумаг?

На каком этапе развития компании пора внедрять OCR по распознаванию документов?

AI-решение по распознаванию документов существенно повышает эффективность бизнеса и потому не может стоить дешево. В ряде случаев руководству компании в моменте удобнее держать в штате несколько человек, которые в течение дня вводят и обрабатывают документы (первичку, KYC анкеты, заявления и т.д.), чем нести затраты на покупку OCR.

Мы подсчитали, что если организация – вне зависимости от того, чем она занимается – обрабатывает более 100 тыс. документов в год или использует хотя бы двух операторов ручного ввода, то ей имеет смысл приобретать решение по распознаванию текста уже сейчас.

Распознавание корпоративных документов: как не утонуть в море бумаг?

Спасибо, что дочитали до конца нашу статью!

Специально для вас мы собрали ее ключевые поинты:

  • Обработка документов с помощью планшетного сканера - это прошлый век;
  • Передача персональных данных на обработку третьим лицам, во внешние сервисы и на краудсорсинг грозит утечками, большими штрафами, дисквалификацией, уголовной ответственностью;
  • Обработка паспортных данных и другой чувствительной информации о клиентах необходимо проводить внутри своей ИТ-инфраструктуры - в контуре безопасности;
  • В декабре вышла новая версия ПО по безопасному распознаванию корпоративных документов - Smart Document Engine. Это полностью российская разработка. OCR быстро и точно работает на смартфонах. А на сервере скорость распознавания достигает впечатляющих 15 страниц в секунду.
77
7 комментариев

Здорово! Большое OCR хороших и разных :)!

2

и с бумагой не хорошо и без нее сложно

1

Комментарий недоступен

Но ведь это не всегда возможно. И точно не зависит от автора статьи. Электронные счета-фактуры сколько в оборот вводили - это капец какой-то был. Тогда и был дан старт ЭДО. Но с нашей бюрократией полная замена бумаги вряд ли предвидится.

Экономия бумаги - это отличная идея, мы ее поддерживаем.

Но отказаться от бумажного документооборота повсеместно вряд ли не получится. Во многих офисах будет сохраняться потребность по распознаванию текстовых документов. Эту задачу можно делегировать нашей автономной AI-системе Smart Document Engine.

Я думал, что такие статьи в наше время уже не особо востребованы, многие отказываются от бумаг, в пользу цифровых доков.

Например, в гостиницах договоры преимущесьвенно заключаются бумажные