{"id":14271,"url":"\/distributions\/14271\/click?bit=1&hash=51917511656265921c5b13ff3eb9d4e048e0aaeb67fc3977400bb43652cdbd32","title":"\u0420\u0435\u0434\u0430\u043a\u0442\u043e\u0440 \u043d\u0430\u0442\u0438\u0432\u043e\u043a \u0438 \u0441\u043f\u0435\u0446\u043f\u0440\u043e\u0435\u043a\u0442\u043e\u0432 \u0432 vc.ru \u2014 \u043d\u0430\u0439\u0434\u0438\u0441\u044c!","buttonText":"","imageUuid":""}

Dbrain

24 июн 2019 24.06.2019

Разрыв шаблона: преимущества нейросети в распознавании полей на документах

Чтобы научить ИИ распознавать текст на документах, понадобится отлаженная работа сразу нескольких алгоритмов. Задача одного из них — найти поля. Об этом сегодня и поговорим.

Компании давно ищут путь, как минимизировать ручной труд в работе с документооборотом и ускорить процессы. Один из способов — внедрить OCR.

OCR (Optical Character Recognition) — технология оптического распознавания символов. Она находит изображение, за секунду разбивает его на отдельные поля, извлекает необходимые данные и автоматически заносит их в нужные формы.

Что такое шаблонизатор и почему на него нельзя положиться

Чтобы найти поля на изображении, можно использовать шаблонизатор: создать ПО, которое использует заранее найденные координаты полей и применяет их на конкретном типе документа. Система автоматически вырезает поля, не анализируя содержание. В таком подходе есть важное условие: шаблон накладывается только на идеально выровненное изображение, которое подогнали под нужный размер и вырезали фон.

Другая особенность — под каждый тип документа придётся заводить отдельный шаблон. Представьте, что ваша задача — оцифровать текст водительских прав и страховки на машину: у этих документов разное расположение полей и строк.

Водительские права бывают нового и старого образца — их координаты полей не совпадают. Компаниям с большим документооборотом понадобится больше сотни шаблонов, и придётся сортировать файлы под каждый из них — это сложная рутинная работа.

Один шаблон — один тип документа, никак иначе

Ещё одна проблема шаблона — он работает только с текущей версией документа. Другими словами, если налоговая решит изменить форму отчётности в следующем месяце, придётся выстраивать всю работу заново. Или вы используете счёт-фактуру — он тоже не поддаётся шаблонизированию. Каждая компания использует свой формат документа, и единого образца попросту нет.

Чем нейросеть лучше

Вместо шаблонизатора доверим процесс одной нейросети, которая способна проанализировать документ и найти строчки самостоятельно. Она не обрежет поле на середине и не потеряет нужную информацию в процессе. И главный плюс — решение на основе машинного обучения масштабируется. То есть технологию можно использовать в работе со всеми видами документов.

Одна нейросеть — сотни документов

Как обучить нейросеть

Главное в создании высококачественной модели — обучение. Если шаблонизатору нужны координаты, то нейросети — данные. Чтобы алгоритм заработал, ему понадобится не меньше пятисот примеров документов, где человек заранее нашёл все поля. Чем больше примеров — тем точнее будет результат.

Возьмём ИНН — у документа несколько вариантов оформления. Можно сделать шаблон под каждый из них, заранее отсортировав файлы по папкам. А можно отдать задачу нейросети — ей всё равно, с каким ИНН работать. Алгоритм уже знаком с каждым типом, потому что прошёл через большую обучающую выборку.

Ещё один плюс работы с нейросетью — она способна найти поля в незнакомом для неё документе без переобучения. Главное, чтобы они были похожи на те, что она уже видела. Даты, ФИО, реквизиты — алгоритм в состоянии найти эти данные по отличительным особенностям.

Что в итоге

У шаблонов есть свои плюсы: их легко использовать в документах, которые редко меняются — например, анкеты в банках. У них всегда одно и то же расположение полей: если и добавляются новые строки, их легко добавить в шаблон. Но с большим потоком документов справится только решение, основанное на машинном обучении. Нейросеть найдёт поля на тысячи разных изображений: дайте ей примеры, а дальше — она сама.

Кому доверите документы?

Создам шаблон — у меня небольшой поток документов.

Опробовал бы нейросеть — посмотрим, так ли она хороша.

Показать результаты

Переголосовать

Проголосовать

#машинноеобучение

25 показов

4.1K открытий

{"id":233759,"url":"https:\/\/vc.ru\/u\/233759-dbrain","name":"Dbrain","avatar":"42fb4b42-28f1-5a4c-abde-e19f32269c9e","karma":1083,"description":"\u041c\u044b \u0441\u0435\u0440\u0432\u0438\u0441 \u0438\u0437\u0432\u043b\u0435\u0447\u0435\u043d\u0438\u044f \u0434\u0430\u043d\u043d\u044b\u0445 \u0438\u0437 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u043e\u0432. \u0420\u0430\u0431\u043e\u0442\u0430\u0435\u043c \u0441 \u043f\u0430\u0441\u043f\u043e\u0440\u0442\u0430\u043c\u0438, \u0412\u0423, \u0421\u0422\u0421, \u0434\u043e\u0433\u043e\u0432\u043e\u0440\u0430\u043c\u0438 \u0438 \u043f\u0435\u0440\u0432\u0438\u0447\u043d\u043e\u0439 \u0434\u043e\u043a\u0443\u043c\u0435\u043d\u0442\u0430\u0446\u0438\u0435\u0439. \u0418\u0441\u043f\u043e\u043b\u044c\u0437\u0443\u0435\u043c \u0418\u0418 \u0432\u043c\u0435\u0441\u0442\u043e \u0432\u0440\u0435\u043c\u0435\u043d\u0438 \u0432\u0430\u0448\u0438\u0445 \u0441\u043e\u0442\u0440\u0443\u0434\u043d\u0438\u043a\u043e\u0432","isMe":false,"isSubscribed":false,"isNotificationsEnabled":false,"isShowMessengerButton":false,"isShowSubscribe":true,"hasBadge":false,"badgeType":null,"badgeUuid":null,"badgeUrl":null,"hasVideoAvatar":false}

16 комментариев

Написать комментарий...

Igor Akimov

24.06.2019

Видимо, в каждой статье надо приводить ссылку на уже 10 лет как работающее решение с обучаемыми шаблонами и нейросетями - https://www.abbyy.com/ru-ru/flexicapture/

ABBYY FlexiCapture. Решение для потокового ввода…

ABBYY FlexiCapture эффективная программа для потокового ввода данных, автоматизирующая извлечение…

www.abbyy.com

Ответить

Развернуть ветку

Kirill Pankin

24.06.2019

Ну, вот... Как можно так безжалостно поступать?..

Ответить

Развернуть ветку

Dbrain

24.06.2019 Автор

рады, что вы читаете каждую нашу статью)

Ответить

Развернуть ветку

John Lee Miller

25.06.2019

А разве FlexiCapture натренирован распозновать документы, удостоверяющие личность?

Ответить

Развернуть ветку

Igor Akimov

25.06.2019

Конечно. В том числе есть мобильное SDK.

Ответить

Развернуть ветку

Аккаунт удален

24.06.2019

Комментарий недоступен

Ответить

Развернуть ветку

Dbrain

24.06.2019 Автор

Точнее — тут :)

Ответить

Развернуть ветку

Yakov Gluschenko

24.06.2019

Нам нужна такая штука

Ответить

Развернуть ветку

Dbrain

24.06.2019 Автор

Яков, мы свяжемся с вами в фб.

Ответить

Развернуть ветку

Dbrain

24.06.2019 Автор

Если не ответили на ваши вопросы в статье, будем рады ответить на них здесь!

Ответить

Развернуть ветку

Andrey Shirobokov

25.06.2019

Какая архитектура сети используется? Как определяли качество модели?

Ответить

Развернуть ветку

Dbrain

25.06.2019 Автор

В качестве архитектура мы используем разные вариации Unet. А проверяем через стандартыне метрики сегментации - CrossEntropy, Dice, IoU.

Ответить

Развернуть ветку

Nechego Dobavit

24.06.2019

Знаком с сервисом, видел, как привлекают людей для разметки, а сам проект полезный и важный, но статья реально неожиданно прервалась.

Ответить

Развернуть ветку

Dbrain

2.07.2019 Автор

Расскажите, чего не хватило?

Ответить

Развернуть ветку

Кирилл Бородин

25.06.2019

Жаль. Хорошее начало статьи и... оборвалось...

Ответить

Развернуть ветку

Dbrain

2.07.2019 Автор

Спасибо, Кирилл! Продолжим в следующей статье

Ответить

Развернуть ветку

Написать комментарий...

13 комментариев

Раскрывать всегда