Без сна и отдыха: нейросеть, которая за секунду сортирует и обрабатывает документы

Частая проблема компаний — большой поток входящих документов, которые сотрудники вынуждены обрабатывать вручную.

Чтобы избавить офис от монотонной работы и ускорить обслуживание клиента, мы в Dbrain разработали решение на основе машинного обучения. Это история одного классификатора, который научился сортировать документы и не только.

Как устроена работа офиса

Раньше клиент шел в офис компании, чтобы предоставить документы. Теперь можно отправить заявку через сайт, прикрепив требуемые файлы. Это упростило жизнь клиенту, но не компании — входящие документы по-прежнему обрабатываются вручную.

Каждый день сотрудники офиса загружают стопки бумаг в поточный сканер, проверяют наличие файлов, нужных для заявки, сортируют их и перепечатывают содержание во внутреннюю систему. Это медленный процесс — клиент вынужден ждать, пока заявка обработается, а сотрудник тонет в рутинной работе.

Как мы придумали сортировщика документов

Итак, проблема налицо: квалифицированные сотрудники банков тратят часы на обработку входящей документации. Мы решили оптимизировать этот процесса с помощью машинного обучения (куда же без него?).

Для начала мы создали простой классификатор. Идея такая: человек загружает бумаги в сканер, он делает из них PDF, затем файлы поступают в нашу систему. Тут начинается работа нейросети: она определяет документы по списку (паспорт, страховка, ИНН), а ненужное отправляет в отдельную папку.

Нейросеть определит тип документа и отправит его в нужную папку 

Как нейросеть понимает, какой перед ней документ? Мы скормили ей много данных для обучения: поработав с тысячами паспортов, она выделила для себя отличительные черты документа и теперь ориентируется по ним. Увидев паспорт клиента, нейросеть классифицирует его с точностью до 99,97%. Мы решили задачу — свели участие человека к минимуму. Но это еще не все.

С какими сложностями мы столкнулись

Часто пользователь присылает перевернутые изображения, фотографии с искаженной перспективой, и сотруднику офиса приходится подгонять файлы под нужный формат (и это помимо сортировки!). Стало понятно, что базовых функций классификатора недостаточно, чтобы разгрузить офис, поэтому мы приступили к апгрейду.

Перевернуть документ, вырезать фон — это дополнительная нагрузка на офис  

Классификатор — 2.0

Сначала мы отправили нейросеть на дополнительное обучение: это необходимо, чтобы помимо паспортов она научилась работать с более редкими документами, которые нужны компании. Мы расширили датасет, и теперь распознавание распространяется на 40 типов: ОГРН, договоры, доверенности и другие многостраничные документы.

Забавный факт: пользователи часто присылают файлы, которые не нужны компании. Например, селфи, обрывки бумаг и фотографии котов (а кто не хочет похвастаться пушистым красавчиком). Такие данные тоже нужны — так классификатор лучше распознает брак.

Коты, дети, селфи — что только не попадается во входящих документах

Затем мы научили нейросеть переворачивать документы прямо в процессе обработки, чтобы это не приходилось делать человеку. И заодно — исправлять перспективное искажение там, где это необходимо.

Сортировка документов — больше не проблема

Благодаря классификатору у сотрудников появилось время на интересные задачи. Офис больше не тонет в бумагах, проверяя одни и те же документы. Теперь это делают специально обученные нейросети: начав с простой задачи по сортировке, мы расширили их возможности. И это не конец — в работе банков и других компаний с большим документооборотом осталось еще множество процессов, которые можно улучшить с помощью ИИ. Об этом расскажем в следующий раз!

Мы не только создаем нейросети, но и рассказываем о важных событиях из мира ИИ Telegram-канале.

3232
13 комментариев

Чтобы избавить офис от монотонной работы и ускорить обслуживание клиента, мы разработали решение на основе машинного обучения. вы представьтесь что ли. что за фирма, чем занимаетесь ;]

1
Ответить

Мы — Dbrain, компания, разрабатывающая решения в области машинного обучения. Сейчас во всю пилим OCR — быстро распознаем и оцифровываем документы. Вот тут подробней: https://ru.docr.dbrain.io

Ответить

Очень нужная разработка, давно подумываю как бы разгрести и систематизировать весь накопившийся за годы хлам.
Иногда в этих археологических раскопках нахожу хорошие вещи, о которых давно уже забыл

1
Ответить

1) "Теперь можно отправить заявку через сайт, прикрепив требуемые файлы."
2) "Каждый день сотрудники офиса загружают стопки бумаг в поточный сканер".

1
Ответить

Обработка происходит только онлайн?

Ответить

Алексей, здравствуйте! Не только — решение можно развернуть локально, а не использовать онлайн в облаке

1
Ответить

Затестим

Ответить