Она поступает по защищенному каналу «в облако», и ее берут «на вооружение» нейросети, которые мы научили распознавать до 96% данных любого скан-образа – в плохом качестве, с рукописным текстом, печатями и т.д. Что же тут нового? Во-первых, это очень высокий показатель, тем более, что здесь не требуется каких-либо манипуляций со стороны персонала для запуска процесса распознавания (чем грешат OCR). Во-вторых, оставшиеся 4% ( это и есть неразборчивые рукописные поля) тут же верифицируются операторами краудсорсингового сервиса, который специально «заточен» на такого рода задачи. В общем-то, отдавать поля, заполненные от руки, операторам краудсорсинговой платформы можно сразу же, не дожидаясь полного распознавания документов. Это реальный пример синергии ИИ и человека.
Технологии распознавания паспорта (документов) существуют много лет, многие компании это используют. Может, в опенсорс наработки выложите?) А то больше на очерк похоже, чем на проект в трибуне.
В действительности, весь код не имеет ценности. Ценность имеют только нейронные сети, их архитектуры и веса, обученные на персональных данных. Выкладывать сети, архитектуру и веса - которые у нас уникальные на наших датасетах, не готовы, ибо это наше конкурентное преимущество.
Есть, например, вроде бы аналогичное решение от ABBY, которое, как я понимаю, даже не требует передачи данных на их сервера: программа устанавливается непосредственно на компы в организации и делает все что нужно https://www.abbyy.com/ru/passportreader-sdk/tech-specs/. Не совсем понятно какие ручные правки требуются у OCR-решений? Наверняка все зависит от API решения, и точно так же можно поставить распознавание на поток (т.е. после загрузки фото паспорта сразу стартует распознавание)
Рукописный текст не распознается. Требуется закупка ПО, от персонала требуется работа со сканирующим устройством, потом корректировка нераспознанных фрагментов. У нас принципиально другой подход.
Снизить участие оператора можно только осуществив проверку действительности распознанных данных в соответствующих официальных источниках. Во всех остальных случаях участие оператора необходимо, собственно даже как и с проверкой по базе.