Разрыв шаблона: преимущества нейросети в распознавании полей на документах

Чтобы научить ИИ распознавать текст на документах, понадобится отлаженная работа сразу нескольких алгоритмов. Задача одного из них — найти поля. Об этом сегодня и поговорим.

Компании давно ищут путь, как минимизировать ручной труд в работе с документооборотом и ускорить процессы. Один из способов — внедрить OCR.

OCR (Optical Character Recognition) — технология оптического распознавания символов. Она находит изображение, за секунду разбивает его на отдельные поля, извлекает необходимые данные и автоматически заносит их в нужные формы.

Чтобы найти поля на изображении, можно использовать шаблонизатор: создать ПО, которое использует заранее найденные координаты полей и применяет их на конкретном типе документа. Система автоматически вырезает поля, не анализируя содержание. В таком подходе есть важное условие: шаблон накладывается только на идеально выровненное изображение, которое подогнали под нужный размер и вырезали фон.

Другая особенность — под каждый тип документа придётся заводить отдельный шаблон. Представьте, что ваша задача — оцифровать текст водительских прав и страховки на машину: у этих документов разное расположение полей и строк.

Водительские права бывают нового и старого образца — их координаты полей не совпадают. Компаниям с большим документооборотом понадобится больше сотни шаблонов, и придётся сортировать файлы под каждый из них — это сложная рутинная работа.

Один шаблон — один тип документа, никак иначе

Ещё одна проблема шаблона — он работает только с текущей версией документа. Другими словами, если налоговая решит изменить форму отчётности в следующем месяце, придётся выстраивать всю работу заново. Или вы используете счёт-фактуру — он тоже не поддаётся шаблонизированию. Каждая компания использует свой формат документа, и единого образца попросту нет.

Вместо шаблонизатора доверим процесс одной нейросети, которая способна проанализировать документ и найти строчки самостоятельно. Она не обрежет поле на середине и не потеряет нужную информацию в процессе. И главный плюс — решение на основе машинного обучения масштабируется. То есть технологию можно использовать в работе со всеми видами документов.

Одна нейросеть — сотни документов

Главное в создании высококачественной модели — обучение. Если шаблонизатору нужны координаты, то нейросети — данные. Чтобы алгоритм заработал, ему понадобится не меньше пятисот примеров документов, где человек заранее нашёл все поля. Чем больше примеров — тем точнее будет результат.

Возьмём ИНН — у документа несколько вариантов оформления. Можно сделать шаблон под каждый из них, заранее отсортировав файлы по папкам. А можно отдать задачу нейросети — ей всё равно, с каким ИНН работать. Алгоритм уже знаком с каждым типом, потому что прошёл через большую обучающую выборку.

Ещё один плюс работы с нейросетью — она способна найти поля в незнакомом для неё документе без переобучения. Главное, чтобы они были похожи на те, что она уже видела. Даты, ФИО, реквизиты — алгоритм в состоянии найти эти данные по отличительным особенностям.

У шаблонов есть свои плюсы: их легко использовать в документах, которые редко меняются — например, анкеты в банках. У них всегда одно и то же расположение полей: если и добавляются новые строки, их легко добавить в шаблон. Но с большим потоком документов справится только решение, основанное на машинном обучении. Нейросеть найдёт поля на тысячи разных изображений: дайте ей примеры, а дальше — она сама.

Кому доверите документы?

Создам шаблон — у меня небольшой поток документов.

Опробовал бы нейросеть — посмотрим, так ли она хороша.

#машинноеобучение

16 комментариев

Igor Akimov

24.06.2019

Видимо, в каждой статье надо приводить ссылку на уже 10 лет как работающее решение с обучаемыми шаблонами и нейросетями - https://www.abbyy.com/ru-ru/flexicapture/