Мы обучили нейросеть распознавать 15 документов за 1 секунду. Показываем, как это работает

Ковер-самолет, меч-кладенец, скатерть-самобранка, шапка-невидимка, молодильные яблоки, волшебный клубочек и… ? Правильно, решение для распознавания полнотекстовых документов от Smart Engines. Оно распознает сканы со скоростью 15 страниц в секунду. А еще распознает текст в темноте и на арабском. Показываем, как выглядит OCR без слабых мест.

Мы обучили нейросеть распознавать 15 документов за 1 секунду. Показываем, как это работает

Сверхбыстрая OCR на 102 языках

В декабре прошлого года Smart Engines объявила о выходе собственного решения для распознавания полнотекстовых документов. Оно является частью программного продукта Smart Document Engine, который извлекает данные из бумажных документов – первичных, бухгалтерских, налоговых, нотариальных, юридических, страховых и прочих.

Это IT-решение находит документ на фотографии или скане, а затем распознает текстовые данные на 102 языках. Причем оно отлично распознает как Latin-based языки, так и языки с собственными системами письменности.

Вот так Smart Document Engine распознает текст на русском:

А вот так, к примеру, на арабском (при свете дня и ночи):

На современном смартфоне решение Smart Engines полностью обрабатывает фотографию листа A4, в том числе с таблицами, за 3-4 секунды.

Процесс в серверных решениях протекает еще быстрее: на 64-х ядерном HPC без применения GPU скорость полнотекстового распознавания достигает 15 страниц в секунду.

Система Smart Engines – и в этом, среди прочего, ее суперсила – автоматически обрезает, "разглаживает" сложенные документы и улучшает их изображения, превращая таким образом телефон в мобильный сканер.

Помимо построчных результатов распознавания, система предоставляет координаты текстовых объектов на исходном изображении и оценки уверенности распознавания на уровне символов, слов или строк.

Решение Smart Engines может быть использовано для распознавания присутствующего текста как на изображении документа целиком, так и на изображениях отдельных фрагментов документа.

Smart Document Engine, как и другим нашим продуктам, не требуется связь с внешними сервисами или ресурсами. Все вычисления производятся непосредственно на вызывающем устройстве. Наша OCR SDK может быть развернута на on-premise сервере, персональном компьютере, в рамках автономного мобильного приложения, а также в веб-приложении.

А как же общедоступные или open-source решения?

В наше время действительно существует много общедоступных open-source распознавателей текста. Такие решения могут быть очень полезны в образовательных целях или для учебного демонстрационного приложения. Однако open-source продукты могут быть не просто бесполезны, а даже опасны для субъектов КИИ и для ИТ-систем, в которых циркулируют персональные данные россиян. Существенным недостатком подобных продуктов окажутся, с одной стороны, невысокие точность и скорость распознавания. О том, чем обернулось наше сравнение с open-source продуктами, мы писали здесь.

Но более существенные минусы – отсутствие контроля над содержимым кода, а также высокие риски внешнего вмешательства. Об этих рисках мы уже рассказывали в своем блоге. Коротко напомним об этом.

Атаки на нейронные сети - это весьма популярная тема для научных исследований. Главные типы подобных атак – отравление данных и атака уклонением с помощью состязательных примеров. При отравлении данных ошибки вводятся в сеть на этапе обучения. А при применении подобной сети распознаватель может совершить специфические серьезные ошибки. Единственный способ избежать такой атаки – быть уверенными в своих данных. А как можно быть уверенным в данных, которых вы никогда не видели?

При атаке уклонением злоумышленник пытается заставить сеть дать неверный ответ. Иногда он даже может предопределить этот ответ. Для открытых систем оптического распознавания текста такие примеры можно посчитать, так как эти системы общедоступны. Можно просто скачать модель и подобрать нужные примеры.

Но Smart Engines, напомним, работает автономно на конечном устройстве. Оно никуда не передает данные клиента, не хранит их и не требует интернет-соединения. Обработка данных ведется на стороне клиента, внутри его контура безопасности. При разработке нашего OCR-модуля мы активно пользуемся генерацией искусственных данных и не используем предобученные модели. Наше решение создано с соблюдением этических принципов ИИ, признанных во всем мире.

Мы обучили нейросеть распознавать 15 документов за 1 секунду. Показываем, как это работает

Лучший вариант для импортозамещения

В прошлом году российские государственные органы, банки и телеком-операторы получили новую задачу по импортозамещению ПО. 31 марта 2022 г. вступил в силу указ президента РФ, запрещающий субъектам критической информационной инфраструктуры (КИИ) закупку иностранного софта. Ведомства и компании, которые десятилетиями эксплуатировали зарубежные программные продукты, должны полностью отказаться от них к 2025 году.

Запрет распространится на различные типы ПО, в том числе, программные продукты для документооборота. Решение ожидаемое: субъектам КИИ всегда приходится работать с разными типами документов, в том числе, секретными файлами. Уже сейчас, до вступления указа в силу, применение иностранного ПО для распознавания текстовых документов сопряжено с целым рядом рисков, как в сфере кибербезопасности, так и в юридической плоскости.

По новым правилам ведомства и крупные корпорации РФ, скорее всего, будут вынуждены расстаться с продуктами, правообладатели которых зарегистрированы в недружественной юрисдикции. Замена подобных решений на отечественные программы - это вопрос времени. Для импортозамещения такого ПО субъектам КИИ скорее всего потребуется не только защищенная от внешних воздействий российская программа, но и самые современные алгоритмы искусственного интеллекта.

Итак, если вы – субъект критической информационной инфраструктуры и вам необходимо провести импортозамещение ABBYY, Kofax и аналогичных иностранных систем, то Smart Document Engine – это лучший вариант ПО, гарантирующего не только высокое качество распознавания текста, но и безопасность персональных данных.

1818
2 комментария

Решение интересное и нужное, но в таких обзорах желательно еще и стоимость указывать на реальном кейсе. Пример, предприятие общепит 5 точек кофейн, первичка УПД, ТН и т.д. автоматизация дает +Х экономии времени, стоит Хруб в месяц или Х руб коробочное решение. По опыту, писать типа оставьте нам заявку мы изучим и т.д. не работает с продуктами которые бизнесу не жизненно важны

6
Ответить

Пишите если прайс будет на сайте. Изучу и примерю

Ответить