{"id":14271,"url":"\/distributions\/14271\/click?bit=1&hash=51917511656265921c5b13ff3eb9d4e048e0aaeb67fc3977400bb43652cdbd32","title":"\u0420\u0435\u0434\u0430\u043a\u0442\u043e\u0440 \u043d\u0430\u0442\u0438\u0432\u043e\u043a \u0438 \u0441\u043f\u0435\u0446\u043f\u0440\u043e\u0435\u043a\u0442\u043e\u0432 \u0432 vc.ru \u2014 \u043d\u0430\u0439\u0434\u0438\u0441\u044c!","buttonText":"","imageUuid":""}

Разрыв шаблона: преимущества нейросети в распознавании полей на документах

Чтобы научить ИИ распознавать текст на документах, понадобится отлаженная работа сразу нескольких алгоритмов. Задача одного из них — найти поля. Об этом сегодня и поговорим.

Компании давно ищут путь, как минимизировать ручной труд в работе с документооборотом и ускорить процессы. Один из способов — внедрить OCR.

OCR (Optical Character Recognition) — технология оптического распознавания символов. Она находит изображение, за секунду разбивает его на отдельные поля, извлекает необходимые данные и автоматически заносит их в нужные формы.

Что такое шаблонизатор и почему на него нельзя положиться

Чтобы найти поля на изображении, можно использовать шаблонизатор: создать ПО, которое использует заранее найденные координаты полей и применяет их на конкретном типе документа. Система автоматически вырезает поля, не анализируя содержание. В таком подходе есть важное условие: шаблон накладывается только на идеально выровненное изображение, которое подогнали под нужный размер и вырезали фон.

Другая особенность — под каждый тип документа придётся заводить отдельный шаблон. Представьте, что ваша задача — оцифровать текст водительских прав и страховки на машину: у этих документов разное расположение полей и строк.

Водительские права бывают нового и старого образца — их координаты полей не совпадают. Компаниям с большим документооборотом понадобится больше сотни шаблонов, и придётся сортировать файлы под каждый из них — это сложная рутинная работа.

Один шаблон — один тип документа, никак иначе 

Ещё одна проблема шаблона — он работает только с текущей версией документа. Другими словами, если налоговая решит изменить форму отчётности в следующем месяце, придётся выстраивать всю работу заново. Или вы используете счёт-фактуру — он тоже не поддаётся шаблонизированию. Каждая компания использует свой формат документа, и единого образца попросту нет.

Чем нейросеть лучше

Вместо шаблонизатора доверим процесс одной нейросети, которая способна проанализировать документ и найти строчки самостоятельно. Она не обрежет поле на середине и не потеряет нужную информацию в процессе. И главный плюс — решение на основе машинного обучения масштабируется. То есть технологию можно использовать в работе со всеми видами документов.

Одна нейросеть — сотни документов 

Как обучить нейросеть

Главное в создании высококачественной модели — обучение. Если шаблонизатору нужны координаты, то нейросети — данные. Чтобы алгоритм заработал, ему понадобится не меньше пятисот примеров документов, где человек заранее нашёл все поля. Чем больше примеров — тем точнее будет результат.

Возьмём ИНН — у документа несколько вариантов оформления. Можно сделать шаблон под каждый из них, заранее отсортировав файлы по папкам. А можно отдать задачу нейросети — ей всё равно, с каким ИНН работать. Алгоритм уже знаком с каждым типом, потому что прошёл через большую обучающую выборку.

Ещё один плюс работы с нейросетью — она способна найти поля в незнакомом для неё документе без переобучения. Главное, чтобы они были похожи на те, что она уже видела. Даты, ФИО, реквизиты — алгоритм в состоянии найти эти данные по отличительным особенностям.

Что в итоге

У шаблонов есть свои плюсы: их легко использовать в документах, которые редко меняются — например, анкеты в банках. У них всегда одно и то же расположение полей: если и добавляются новые строки, их легко добавить в шаблон. Но с большим потоком документов справится только решение, основанное на машинном обучении. Нейросеть найдёт поля на тысячи разных изображений: дайте ей примеры, а дальше — она сама.

Кому доверите документы? 
Создам шаблон — у меня небольшой поток документов.
Опробовал бы нейросеть — посмотрим, так ли она хороша.
Показать результаты
Переголосовать
Проголосовать
0
16 комментариев
Написать комментарий...
Igor Akimov

Видимо, в каждой статье надо приводить ссылку на уже 10 лет как работающее решение с обучаемыми шаблонами и нейросетями - https://www.abbyy.com/ru-ru/flexicapture/

Ответить
Развернуть ветку
Kirill Pankin

Ну, вот... Как можно так безжалостно поступать?..

Ответить
Развернуть ветку
Dbrain
Автор

рады, что вы читаете каждую нашу статью)

Ответить
Развернуть ветку
John Lee Miller

А разве FlexiCapture натренирован распозновать документы, удостоверяющие личность?

Ответить
Развернуть ветку
Igor Akimov

Конечно. В том числе есть мобильное SDK.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Dbrain
Автор

Точнее — тут :)

Ответить
Развернуть ветку
Yakov Gluschenko

Нам нужна такая штука

Ответить
Развернуть ветку
Dbrain
Автор

Яков, мы свяжемся с вами в фб.

Ответить
Развернуть ветку
Dbrain
Автор

Если не ответили на ваши вопросы в статье, будем рады ответить на них здесь!

Ответить
Развернуть ветку
Andrey Shirobokov

Какая архитектура сети используется? Как определяли качество модели?

Ответить
Развернуть ветку
Dbrain
Автор

В качестве архитектура мы используем разные вариации Unet. А проверяем через стандартыне метрики сегментации - CrossEntropy, Dice, IoU.

Ответить
Развернуть ветку
Nechego Dobavit

Знаком с сервисом, видел, как привлекают людей для разметки, а сам проект полезный и важный, но статья реально неожиданно прервалась.

Ответить
Развернуть ветку
Dbrain
Автор

Расскажите, чего не хватило?

Ответить
Развернуть ветку
Кирилл Бородин

Жаль. Хорошее начало статьи и... оборвалось...

Ответить
Развернуть ветку
Dbrain
Автор

Спасибо, Кирилл! Продолжим в следующей статье

Ответить
Развернуть ветку
13 комментариев
Раскрывать всегда