Как выбрать систему распознавания документов — 14 критериев и чек-лист

2022 год показал, что к выбору системы распознавания документов стоит отнестись с максимальной ответственностью. От надежности разработчика ПО зависит, будет ли система функционировать без сбоев и будет ли работать вообще. Так, в прошлом году ряд вендоров систем распознавания ушли из России, буквально бросив российских клиентов и прекратив поддержку продуктов.

Как выбрать систему распознавания документов — 14 критериев и чек-лист

Сейчас у российских компаний и госструктур возникает вопрос, как сориентироваться при выборе имеющихся на рынке технологий распознавания документов. Дмитрий Силуянов, директор направления цифровизации клиентского сервиса Лиги Цифровой Экономики, рассказывает, на что обратить внимание при выборе системы распознавания документов, если вы планируете внедрение в нынешнем или в 2024 году.

В статье представлены 14 критериев для выбора вендоров и поставщиков систем распознавания документов, которые помогут избежать проблем в будущем. Рекомендации разделены на две группы: сначала речь пойдет о проверке компании, потом — о самой системе. Советы из первой группы будут полезны при выборе поставщика любого ПО, а из второй — помогут объективно оценить систему распознавания документов.

Бонус в конце материала — универсальный чек-лист, с помощью которого вы сможете минимизировать риски при выборе разработчика системы оптического распознавания текста (OCR).

1. Удостоверьтесь, что технологию контролирует российское юрлицо

В текущей обстановке более надежны решения, которыми полностью владеют отечественные компании. Дело в том, что иностранный инвестор, контролирующий долю, может в любой момент решить забрать ее и покинуть российский рынок. Пользователям продуктов это угрожает как минимум нестабильной работой, как максимум — утратой важных данных и остановкой ключевых бизнес-процессов.

При выборе нового ИТ-решения в первую очередь нужно убедиться, что следует проверить, что потенциальный поставщик — российское юрлицо, которое принадлежит гражданам России. Чтобы узнать это, необходимо:

  1. Посмотреть правоустанавливающие документы компании, например устав, или обратиться в любой сервис статистики и проверить, что у владельцев компании не указаны такие формы собственности как Ltd (Limited trade development), LLP (Limited Liability Partnership) и аналогичные.

  2. Изучить структуру владения, узнать имена ключевых руководителей. Если структура владения компанией не скрыта, понятна и прозрачна — это хорошее подтверждение того, что организация хочет работать в России. Дополнительный плюс — на сайте компании опубликованы имена и фото директора и других ключевых лиц.

Так как сделки на приобретение программного обеспечения чаще всего носят долгосрочный характер и заключаются на срок от трех до 10 лет, то не учитывать настоящих владельцев решения сегодня недальновидно.

2. Убедитесь, что компания существует на рынке более пяти лет

Последние годы выдались особенно тяжелыми для бизнеса. Если компания работала до начала пандемии COVID-19, не ушла из страны в 2022 году и продолжает работать сегодня — это признак устойчивости. Значит, «черные лебеди» не выбивают компанию из колеи. В настоящее время, возможно, это важнейший критерий, чтобы доверить ей автоматизацию процессов распознавания документов.

3. Выясните численность штата компании

Количество сотрудников в компаниях-разработчиках ПО может существенно различаться в зависимости от направления разработки, бизнес-модели и специфики отрасли. Однако если в штате официально трудоустроены три человека, а компания при этом заявляет, что разрабатывает собственные технологии распознавания документов, то здесь что-то неладное.

Системы распознавания документов и другие наукоемкие технологии требуют не только написания кода, но и разработки алгоритмов. Трем специалистам, даже высококлассным, не по силам обеспечить непрерывную разработку, доставку и поддержку ПО. В этом случае, вероятно, компания использует чужие технологии, переклеивая на них шильдики или вовсе обманывая.

Информацию о численности сотрудников можно поискать на официальном сайте компании в разделах «О нас», «Команда», «Корпоративная информация», в релизах или отчетах организации, а также в бизнес-директориях, профессиональных сетях и сервисах государственной статистики. Минимум для стартапа в области распознавания документов — 10 сотрудников.

4. Найдите отзывы и кейсы клиентов компании

Знание о клиентах может помочь сформировать представление о репутации и надежности компании, а также понять, насколько популярен и востребован ее продукт. Эта информация позволит оценить, насколько ИТ-решение соответствует вашим ожиданиям и потребностям. Для принятия более информированного решения о покупке можно также изучить отзывы и рекомендации клиентов.

Помните, что наличие логотипа на сайте поставщика не говорит о том, что организация использует решение этого вендора. Важно понимать, что часто поставщики, у которых в действительности нет клиентов, добавляют на сайт логотипы компаний, с которыми были бесплатные пилоты, нефинансовые договоры о партнерстве, а порой даже те, в чьих конкурсах и хакатонах они просто принимали участие.

Лучше поискать подтверждение сотрудничества в рубрике «Кейсы» или «Наши проекты» на сайте компании-разработчика, а также в пресс-релизах, новостях о внедрении, отзывах и рекомендациях в открытых источниках. Если такая информация есть, скрывать ее не захочет ни один разработчик.

5. Проверьте, обладает ли компания ключевыми компетенциями

Надежные разработчики, как правило:

Владеют патентами на собственные разработки. Это подтверждает, что компания разрабатывает уникальные решения, внедряет нововведения, серьезно относится к исследованиям.

Публикуют научные материалы и статьи. Такая активность показывает, что в компании работают эксперты высокого уровня, у нее есть экспертиза и глубокое понимание предметной области.

Обычно информацию о патентах можно найти в описании продукта на сайте и в пресс-релизах. Ссылки на статьи публикуют на сайте и в соцсетях, также можно проверить, ведет ли компания блоги на популярных тематических площадках.

Напомним, что технологии распознавания относятся к наукоемким. Если компания заявляет, что делает в этой области что-то свое — это должно быть видно по патентам, статьям и квалификации сотрудников.

6. Уточните у поставщика, использует ли он собственную OCR

Технология OCR (Optical Character Recognition) — ключевой элемент любой системы распознавания документов. Она отвечает за поиск символов на изображении и их извлечение.

Крайне важно, чтобы разработчик софта использовал собственную OCR, а не пользовался сторонней или набором сторонних. При этом не имеет значения, является эта сторонняя система проприетарной (то есть имеет собственника и распространяется за деньги) или бесплатной. Если у компании нет своей технологии OCR, то она не разработчик, а интегратор программных продуктов других вендоров.

Зависимость систем распознавания от сторонних технологий OCR несет риски. Владелец или сообщество, которое развивает проект, в случае свободно распространяемого ПО могут ограничить его использование в России. Такие случаи в 2022 уже были. Кроме того, использование иностранного ПО в 2025 году будет запрещено на законодательном уровне, во всяком случае, применительно к критическим информационным инфраструктурам.

7. Удостоверьтесь, что поставщик работает в контуре

Существуют два способа обработки информации:

В контуре. Разработчик предоставляет софт для распознавания, который работает полностью автономно, и вендор такой системы не имеет никакого доступа к документам заказчика. Этот вариант наиболее надежен, поскольку исключает утечку персональных и конфиденциальных данных из компании.

За пределами контура. Заказчик передает документы в сервис и заказывает их обработку. В таком случае в процессе извлечения данных участвуют сотрудники сервиса, которые вручную вбивают их с изображений. При этом технологичность OCR- или IDP-решения, применяемого для распознавания в таком сервисе, не играет большой роли. Владельцам сервиса важнее найти операторов, готовых как можно дешевле выполнять работу по вводу данных.

При передаче документов в сервис:

  • Доступ к изображениям документов получает другая компания, что создает риск потери чувствительных данных. За последние годы с утечками столкнулись многие компании, которые являются операторами персональных данных. Среди них были, например, Яндекс и Сбер, которые вкладывают в системы информационной безопасности огромные средства. В случае утечки данных компания, которая доверила распознавание документов такому сервису, будет обязана будет уплатить штраф, и ее репутация пострадает.

  • При ручном переносе информации всегда возникают ошибки, и в российской судебной практике уже были иски к качеству работы таких сервисов с ручным вводом данных.

Если компания не готова в будущем расставаться с сотнями тысяч, а то и миллионами рублей, следует убедиться, что решение работает полностью в контуре, а поставщик не применяет для распознавания подходы Mechanical Turk, Crowdsourcing, HITL (human in the loop) и их аналоги, то есть в распознавание не вовлечены удаленные, облачные и внешние операторы.

8. Проверьте, что программа включена в реестр российского ПО

Сегодня присутствие программного продукта в реестре российского ПО — это обязательное, но далеко не достаточное требование. Чтобы проверить, включено ли решение в реестр, нужно перейти на его сайт и в поисковой строке набрать название продукта, компании или номер реестровой записи.

Как показал 2022 год, вендоры могут выводить свои продукты из реестра, а в самом реестре могут быть продукты, принадлежащие компаниям из других юрисдикций.

9. Проверьте, что системе для распознавания не требуется мощный графический процессор (GPU)

Часто поставщики обещают высокую скорость распознавания и даже указывают конкретные значения — но не сообщают, что для их достижения потребуются использовать мощные графические процессоры (GPU). Всегда следует уточнять, на каком оборудовании достигается та или иная скорость распознавания, потому что, если в распоряжении пользователя нет аналогичной мощной техники, система не покажет ожидаемых результатов.

Сегодня покупка видеокарт затруднена из-за санкций. Если оборудование поставляется по параллельному импорту, то покупатель не может рассчитывать на техническую поддержку и обслуживание, доступ к обновлениям, а также гарантии работоспособности. Случаются и блокировки учетных записей на порталах вендоров. Технические возможности обойти ограничения находятся за рамками правового поля. Если оборудование ломается, владелец вынужден искать замену самостоятельно и тратить средства на хранение запчастей.

Если вендор заявляет, что высокая скорость и качество распознавания не требуют GPU, это хороший признак — значит, технология OCR аппаратно-независимая.

Существуют задачи, где применение GPU оправданно, но распознавание документов к ним не относится. Даже бесплатные OCR на обычных 4- и 8-ядерных процессорах обрабатывают страницу А4 за 5-7 секунд. А если взять распространенную задачу распознавания паспорта, то даже системы, появившиеся почти 20 лет назад, справлялись за 3–4 секунды на обычных компьютерах того времени.

Отсутствие необходимости использовать большие вычислительные мощности и GPU подтверждает, что у разработчика есть современные технологии распознавания. Сегодня это позволяет применять распознавание документов не только в бэкофисных решениях (когда вычисления выполняются на сервере и ресурсы почти не ограничены), но и даже в мобильных приложениях, к которым привыкли пользователи.

10. Узнайте, на что способна система по части распознавания

При выборе системы распознавания не поленитесь расспросить вендора, что именно она умеет автоматически распознавать. Каждый разработчик имеет свои уникальные возможности и ограничения, поэтому важно понять, будет ли решение в итоге отвечать вашим потребностям.

Если компании нужно распознавать «первичную» бухгалтерскую документацию, то следует узнать, какие типы документов уже настроены вендором и поставляются «из коробки». Если планируется автоматизировать ввод данных паспорта РФ, нужно понимать, какие страницы, кроме основного разворота, нужно распознавать. А это приводит к вопросам: умеет ли система извлекать данные из штампов, детектировать страницы и распознавать рукописный основной разворот?

В общем случае при выборе системы нужно понимать, может ли система распознавать:

  • документы с «четкой с точки зрения геометрии» формой,

  • документы, расположение и состав реквизитов которых четко не зафиксированы,

  • рукописный и рукопечатный (то есть написанный от руки печатными буквами) текст,
  • таблицы,
  • штрихкоды.

Также важно знать, может ли система:

  • детектировать чекбоксы и метки,
  • обнаруживать печати,
  • распознавать неструктурированные документы (договоры, входящую корреспонденцию).

11. Убедитесь, что вас устраивает скорость распознавания

Скорость распознавания документов зависит от целого ряда факторов: сложности документа, качества изображения, размера файла, типа устройства (сервер или мобильный телефон), мощности процессора и так далее. Чем сложнее документ или ниже качество изображения, тем больше времени потребуется системе для точного распознавания.

Тем не менее есть ориентиры. Передовые системы без использования GPU на 64-ядерном процессоре способны распознавать за секунду:

  • 10–15 страниц полнотекстовых документов
  • 10 страниц счета-фактуры, УПД и других первичных бухгалтерских документов.

12. Проверьте, распознает ли система фотографии документов

На практике регулярно возникает необходимость обрабатывать не только качественные сканы, но и фотографии документов. Источником изображений в этом случае выступает обычный мобильный телефон. Если в ваших бизнес-процессах клиенты предоставляют фотографии паспорта, справки о доходах и других документов или ваши сотрудники используют для оцифровки не сканер, а смартфоны, то требование по распознаванию документов на фотографиях является критичным.

Нужно заранее проверить, умеет ли система распознавать на фотографиях паспорта РФ и способна ли распознавать документы формата А4, снятые под углом при различном освещении.

13. Убедитесь, что OCR-решение совместимо с нужными вам архитектурами

При выборе системы распознавания документов важно учитывать совместимость решения с различными аппаратными платформами и операционными системами. Один из основных аспектов — работа на процессорах x86 и ARM, то есть с самыми популярными архитектурами на рынке.

Следует также обратить внимание на совместимость системы с операционными системами, включая мобильные и серверные. Это необходимо, чтобы обеспечить работу системы распознавания на самых разных устройствах без ограничений, связанных с выбором платформы или ОС. Например, у российских дистрибутивов Linux, у ОС «Эльбрус» и «Аврора» есть особенности — важно, чтобы система корректно работала с ними, если вы используете или планируете использовать их.

14. Уточните, есть ли возможность предоставления исходного кода

Предоставление исходного кода позволяет провести аудит и проверить алгоритмы, используемые в системе распознавания. Это особенно важно, если система должна работать с конфиденциальными или критическими данными. Аудит исходного кода позволяет обнаружить потенциальные уязвимости или ошибки в алгоритмах и недокументированные функции, что помогает убедиться в надежности и безопасности системы.

Чек-лист для выбора системы распознавания документов

Этот список поможет выбрать надежное решение — чем больше баллов наберут компания и продукт, тем лучше.

Проверяем компанию:

1. Нет бенефициаров за рубежом.

2. На рынке более 5 лет.

3. В штате более десяти человек.

4. Есть клиенты, кейсы и отзывы.

5. Есть патенты на технологии, компания проводит научные исследования.

Проверяем продукт:

6. В решении используется собственная технология OCR (оптическое распознавание символов).

7. Для распознавания документов не привлекаются внешние операторы и данные не передаются в сторонние сервисы.

8. Решение входит в реестр российского ПО.

9. Для распознавания документов не нужен мощный графический процессор.

10. Система распознает все нужные вам документы и данные, например таблицы, чек-боксы, печати, подписи и рукописные реквизиты.

11. Скорость распознавания достаточна для ваших задач.

12. Система распознает не только сканы, но и фотографии.

13. OCR вендора совместима с аппаратными платформами и операционными системами, которые уже используются в компании.

14. Вендор может предоставить исходный код системы.

339339 показов
450450 открытий
Начать дискуссию