{"id":13650,"url":"\/distributions\/13650\/click?bit=1&hash=b4a44ea9299acb416ac92e110a87e80acc960de1a8f124e06d52ec1ea62c252a","title":"\u041a\u0430\u043a \u043f\u043e\u0441\u0442\u0440\u043e\u0438\u0442\u044c \u0438\u0434\u0435\u0430\u043b\u044c\u043d\u044b\u0439 \u0434\u043e\u043c \u043a\u0430\u043a \u0432 Sims","buttonText":"","imageUuid":"","isPaidAndBannersEnabled":false}

5 мифов об облачном распознавании документов

Распознавание документов с применением AI-решений – не просто модный тренд, а современная реальность. Особенно его востребованность выросла в связи с массовым переходом на hybrid office из-за пандемии. В статье я хочу уделить внимание мифам, которые сложились вокруг этой передовой технологии, так как часто из-за них бизнес боится выбирать облака, предпочитая классическую локальную поставку. Полетели.

Минусы классического распознавания

Классические инструменты интеллектуального распознавания работают в закрытом контуре заказчика. Для крупных компаний это весомый аргумент в пользу выбора. Но есть у локально разворачиваемых систем и ряд минусов:

1. Недостаточно высокое качество распознавания

Клиенту важно, чтобы в процессе интеллектуального распознавания поля карточки или комплекта документов были заполнены полностью. Это упрощает задачу: настроенные алгоритмы бизнес-процессов в информационной системе корректно выстраивают цепочку обработки документа. Но применение методов машинного обучения и нейросетей обеспечивает точность, близкую к 100% , только при соблюдении ряда условий, таких как неизменность формы документа и высокое качество скан-образа. В реальности этим требованиям отвечает лишь небольшое число видов документов.

2. Мощные аппаратные ресурсы

Чем выше поток обрабатываемых документов и требования к качеству распознавания, тем больше AI-системам нужно аппаратных ресурсов (основная нагрузка ложится на ОЗУ и CPU). Высокоточные решения на базе нейронных сетей часто для вычислений требуют высокоскоростные видеокарты по аналогии со специализированным оборудованием для майнинга. Такие комплектующие и без того дорогие, при этом с каждым годом цена на них только растет.

3. Трудоемкость внедрения

Если вы решили развернуть систему искусственного интеллекта (ИИ) локально, то запаситесь временем на установку программного обеспечения. Наиболее трудоемкий этап – обучение системы на документах заказчика. Для чего это необходимо, и почему они не могут работать «из коробки»? На самом деле коробочные модели есть, и с ними можно начинать работу. Но, как показывает практика, от заказчика к заказчику комплектность документов меняется и появляются новые виды, которыми необходимо дополнять «коробку». Ряд систем не способны на такое обучение и предлагают работать с тем, что есть. Другие же для создания новых моделей и повышения точности существующих требуют от заказчика подготовки датасетов для обучения образов тех самых документов. Причем нужны именно «живые» документы в достаточном количестве (от 100 до 1000 на 1 вид), с которыми заказчик работает сейчас и будет продолжать работать.

Рынок России готов к облакам

Последними двумя недостатками грешат не только AI-продукты, но и другие корпоративные информационные системы. Между тем уже давно придумано решение, позволяющее обойти эти минусы и получить полный набор функциональности, необходимой заказчику. Всё верно, речь идет о модели SaaS (Software as a Service).

По данным аналитического агентства J’son & Partners Consulting, объем рынка SaaS в России по итогам 2020 года составил 11,5 млрд. рублей. Несмотря на то, что это на 28% больше по сравнению с предыдущим годом, наблюдается явная тенденция к снижению динамики перехода на облачное программное обеспечение. Это связано, скорее, с менталитетом российского бизнеса, чем с объективными факторами. Существует ряд предубеждений относительно использования SaaS, с которыми вы наверняка сталкивались. Взглянем на них через призму распознавания документов в облаке.

Миф № 1. Облачное распознавание – это долго

Бытует мнение, что документы всех заказчиков «выстраиваются» в общую очередь. До вашего пакета она может дойти через 10-15 минут. Рассказываю, почему это не так.

Прежде чем разместить программное обеспечение в облаке, вендоры рассчитывают плановую и пиковую нагрузку, а после исходя из этих показателей выделяют ресурсы. Плюс ко всему в облаках не размещают однопоточные приложения, которые нельзя масштабировать. Эффект от их использования в облаке сводится к нулю. Причина – прямая зависимость пропускной способности приложения от выделяемых аппаратных ресурсов.

Многопоточные приложения параллельно распознают десятки документов или страниц в зависимости от схемы работы. Плюсы такого подхода:

  • равная скорость движения документов всех заказчиков;
  • отсутствие задержек;
  • в моменты пиковой загрузки динамическое выделение ресурсов на поток позволяет увеличить пропускную способность и ускорить обработку очереди.

Миф № 2. Распознавание в облаке — это небезопасно

Поскольку документы передаются во внешнюю сеть, они уязвимы к атакам и доступу со стороны злоумышленников. Конечно, можно отключить компьютер от интернета, заблокировать usb-порты, но давайте не будем впадать в крайности.

Отмечу, что большинство сервисов облачного распознавания обменивается данными по протоколу HTTPS, который предполагает TLS- или SSL-шифрование. Насколько он надежен? Настолько, что, например, банк-клиенты на ваших мобильных устройствах передают данные по этому же протоколу. Хотя часто для дополнительной защиты здесь используется двухфакторная авторизация с смс-кодом.

Входящие документы редко приходят исключительно в бумаге, часто они поступают по email или через системы ЭДО. Протоколы, по которым приходит электронная почта (IMAP, SMTP, POP3), или те, по которым бухгалтерия передает отчетные документы в налоговую, защищены точно таким же шифрованием. Стоит ли жертвовать удобством облачного распознавания, если документы уже побывали в сети?

Миф № 3. Распознавать документы в облаке дороже, чем обрабатывать их вручную

Этот постулат зачастую становится краеугольным камнем при выборе не только облачного распознавания, но и в целом ИИ для распознавания документов. Затраты на расшифровку человеком кажутся понятными – это расходы на фонд оплаты труда. Но к сожалению, не всегда при расчетах заказчик учитывает, сколько именно людей нужно для выполнения этой функции. И здесь речь не только о пропускной способности, но и о том, что люди иногда болеют, берут отгулы и ходят в отпуск, а новые документы поступают на обработку каждый день.

Давайте посчитаем. Пропускная способность одного сотрудника тоже ограничена. Например, на ручное занесение одного документа и заполнение карточки из 10 реквизитов уходит не менее 5 минут. Это значит, что при 40-часовой рабочей неделе 1 сотрудник сможет обработать, не делая перерывов, 2016 документов и получит при этом 30-40 тыс. рублей. С учетом налогов это обойдется работодателю в 42-56 тыс. в месяц или в пересчете на 1 документ – от 21 рубля за документ. И это без учета амортизации офисного оборудования.

Облачные AI-сервисы распознавания тоже дают 100% заполнения. Но сотрудник так же понадобится, правда, на верификацию одного документа у него будет уходить всего 1-1,5 минуты. Таким образом, «пропускная способность» сотрудника увеличивается в 4-5 раз.

Существуют и такие сервисы, которые кроме распознавания с помощью AI, предлагают услуги удаленной верификации и гарантируют на выходе на 100% корректно и полностью заполненные данные по документу. Сотрудники компании-клиента при этом не задействуются.

Миф №4. Эффективность облачного распознавания ничем не выше on-premise решений

В облачной и локальной поставке одного и того же вендора могут работать идентичные AI-сервисы, дающие на выходе одинаковый результат. Однако за счет того, что у разных клиентов используются одни и те же виды документов модели распознавания в облачном сервисе дообучаются на всей общности обрабатываемых данных. При этом ни один из клиентов не видит документы другого (так как модель не содержит непосредственно данные документов, а лишь относительные определения реквизитов), но все получают качественный результат.

Простой кейс

Компании №1 необходимо распознать бухгалтерские документы. Она работает с ТОРГ-12, УПД, счетами-фактурами, но актов выполненных работ у нее немного. Их недостаточно для обучения локальной модели распознавания. В это же время облачный сервис использует компания №2, которая специализируется на оказании услуг. В ее портфеле много актов, но мало товарных накладных. Совместная работа в облаке обеих компаний позволяет получить качественные модели по всем четырем видам документов.

Есть и финансовая сторона вопроса. Лицензии on-premise предполагают либо единоразовый платеж за определенный пакет документов, который заказчик распознает каждый месяц/год, либо готовую подписку на пакеты. В случае с облачным распознаванием многие вендоры предлагают авансовую схему оплаты по пакетам документов или страниц, которые клиент может и не израсходовать. Однако самой удобной и прозрачной будет оплата за фактически распознанные документы, прошедшие через облачный сервис, с выставлением счета по итогу прошедшего месяца.

Миф №5. «Я не контролирую данные, которые попадают в облако»

Может ли вендор обратиться к данным заказчика, которые проходят обработку в облачном сервисе? Да. Может ли он использовать эти данные по своему усмотрению? Всё зависит от условий, на которых заключается договор подключения к сервису. Любой уважающий себя вендор отразит в договоре условия доступа к данным заказчика (например, для оказания технической поддержки по запросу заказчика или регулярного обучения моделей), а также подпишет NDA, где оговаривается ответственность за доступ к данным. Особенно это актуально для облачных сервисов, которые гарантируют 100%-ное распознавание. В 99% случаев это возможно только за счет привлечения людей на стороне исполнителя, выполняющих верификацию распознанных данных.

Если вам обещают 100%-ное распознавание, внимательно прочтите все условия договора и уточните, за счет чего и при каких условиях достигается столь высокий результат.

Как вы могли убедиться, у распознавания документов по модели SaaS есть свои плюсы и минусы. В зависимости от профиля вашего бизнеса какие-то из приведенных выше критериев будут иметь больший или меньший вес. Однако в сухом остатке моя статья направлена на то, чтобы сделать ваш выбор более объективным и эффективным.

Источник: www.secuteck.ru

Виталий Астраханцев
евангелист AI-направления Directum
0
Комментарии
Читать все 0 комментариев
null