Без сна и отдыха: нейросеть, которая за секунду сортирует и обрабатывает документы

Частая проблема компаний — большой поток входящих документов, которые сотрудники вынуждены обрабатывать вручную.

Чтобы избавить офис от монотонной работы и ускорить обслуживание клиента, мы в Dbrain разработали решение на основе машинного обучения. Это история одного классификатора, который научился сортировать документы и не только.

Как устроена работа офиса

Раньше клиент шел в офис компании, чтобы предоставить документы. Теперь можно отправить заявку через сайт, прикрепив требуемые файлы. Это упростило жизнь клиенту, но не компании — входящие документы по-прежнему обрабатываются вручную.

Каждый день сотрудники офиса загружают стопки бумаг в поточный сканер, проверяют наличие файлов, нужных для заявки, сортируют их и перепечатывают содержание во внутреннюю систему. Это медленный процесс — клиент вынужден ждать, пока заявка обработается, а сотрудник тонет в рутинной работе.

Как мы придумали сортировщика документов

Итак, проблема налицо: квалифицированные сотрудники банков тратят часы на обработку входящей документации. Мы решили оптимизировать этот процесса с помощью машинного обучения (куда же без него?).

Для начала мы создали простой классификатор. Идея такая: человек загружает бумаги в сканер, он делает из них PDF, затем файлы поступают в нашу систему. Тут начинается работа нейросети: она определяет документы по списку (паспорт, страховка, ИНН), а ненужное отправляет в отдельную папку.

Нейросеть определит тип документа и отправит его в нужную папку 

Как нейросеть понимает, какой перед ней документ? Мы скормили ей много данных для обучения: поработав с тысячами паспортов, она выделила для себя отличительные черты документа и теперь ориентируется по ним. Увидев паспорт клиента, нейросеть классифицирует его с точностью до 99,97%. Мы решили задачу — свели участие человека к минимуму. Но это еще не все.

С какими сложностями мы столкнулись

Часто пользователь присылает перевернутые изображения, фотографии с искаженной перспективой, и сотруднику офиса приходится подгонять файлы под нужный формат (и это помимо сортировки!). Стало понятно, что базовых функций классификатора недостаточно, чтобы разгрузить офис, поэтому мы приступили к апгрейду.

Перевернуть документ, вырезать фон — это дополнительная нагрузка на офис  

Классификатор — 2.0

Сначала мы отправили нейросеть на дополнительное обучение: это необходимо, чтобы помимо паспортов она научилась работать с более редкими документами, которые нужны компании. Мы расширили датасет, и теперь распознавание распространяется на 40 типов: ОГРН, договоры, доверенности и другие многостраничные документы.

Забавный факт: пользователи часто присылают файлы, которые не нужны компании. Например, селфи, обрывки бумаг и фотографии котов (а кто не хочет похвастаться пушистым красавчиком). Такие данные тоже нужны — так классификатор лучше распознает брак.

Коты, дети, селфи — что только не попадается во входящих документах

Затем мы научили нейросеть переворачивать документы прямо в процессе обработки, чтобы это не приходилось делать человеку. И заодно — исправлять перспективное искажение там, где это необходимо.

Сортировка документов — больше не проблема

Благодаря классификатору у сотрудников появилось время на интересные задачи. Офис больше не тонет в бумагах, проверяя одни и те же документы. Теперь это делают специально обученные нейросети: начав с простой задачи по сортировке, мы расширили их возможности. И это не конец — в работе банков и других компаний с большим документооборотом осталось еще множество процессов, которые можно улучшить с помощью ИИ. Об этом расскажем в следующий раз!

Мы не только создаем нейросети, но и рассказываем о важных событиях из мира ИИ Telegram-канале.

0
13 комментариев
Написать комментарий...
Voin Mraka
Чтобы избавить офис от монотонной работы и ускорить обслуживание клиента, мы разработали решение на основе машинного обучения.

вы представьтесь что ли. что за фирма, чем занимаетесь ;]

Ответить
Развернуть ветку
Dbrain
Автор

Мы — Dbrain, компания, разрабатывающая решения в области машинного обучения. Сейчас во всю пилим OCR — быстро распознаем и оцифровываем документы. Вот тут подробней: https://ru.docr.dbrain.io

Ответить
Развернуть ветку
Dmitry Putincev

"Увидев паспорт клиента, нейросеть классифицирует его с точностью до 99,97%" - Коллеги, чтобы говорить о точности нужно приводить информацию о датасете, на котором она получена. В данном случае интересно на чем вы измеряли? На фотографиях, сканах? Это были оригиналы или ксерокопии? Есть ещё нюансы получения изображений, без указания которых цифры мало о чем говорят. А если говорить об указанной вами точности, то для такого замера вы должны были получить от заказчика датасет из примерно 10000 изображений с паспортами РФ. Круто, что вы смогли найти такого клиента.

Ответить
Развернуть ветку
Вы в федеральном розыске

Очень нужная разработка, давно подумываю как бы разгрести и систематизировать весь накопившийся за годы хлам.
Иногда в этих археологических раскопках нахожу хорошие вещи, о которых давно уже забыл

Ответить
Развернуть ветку
Посторонний

1) "Теперь можно отправить заявку через сайт, прикрепив требуемые файлы."
2) "Каждый день сотрудники офиса загружают стопки бумаг в поточный сканер".

Ответить
Развернуть ветку
towardsahead

Обработка происходит только онлайн?

Ответить
Развернуть ветку
Dbrain
Автор

Алексей, здравствуйте! Не только — решение можно развернуть локально, а не использовать онлайн в облаке

Ответить
Развернуть ветку
towardsahead

Круто!

Ответить
Развернуть ветку
Игорь Татарович

Затестим

Ответить
Развернуть ветку
Посторонний

Где вы нашли ссылку на тестирование?

Ответить
Развернуть ветку
Игорь Татарович

Там гиперссылка на слове «система»

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Dbrain
Автор

Привет! Да, все есть

Ответить
Развернуть ветку
10 комментариев
Раскрывать всегда