Сервисы
Dbrain
1776

Без сна и отдыха: нейросеть, которая за секунду сортирует и обрабатывает документы

Частая проблема компаний — большой поток входящих документов, которые сотрудники вынуждены обрабатывать вручную.

В закладки

Чтобы избавить офис от монотонной работы и ускорить обслуживание клиента, мы в Dbrain разработали решение на основе машинного обучения. Это история одного классификатора, который научился сортировать документы и не только.

Как устроена работа офиса

Раньше клиент шел в офис компании, чтобы предоставить документы. Теперь можно отправить заявку через сайт, прикрепив требуемые файлы. Это упростило жизнь клиенту, но не компании — входящие документы по-прежнему обрабатываются вручную.

Каждый день сотрудники офиса загружают стопки бумаг в поточный сканер, проверяют наличие файлов, нужных для заявки, сортируют их и перепечатывают содержание во внутреннюю систему. Это медленный процесс — клиент вынужден ждать, пока заявка обработается, а сотрудник тонет в рутинной работе.

Как мы придумали сортировщика документов

Итак, проблема налицо: квалифицированные сотрудники банков тратят часы на обработку входящей документации. Мы решили оптимизировать этот процесса с помощью машинного обучения (куда же без него?).

Для начала мы создали простой классификатор. Идея такая: человек загружает бумаги в сканер, он делает из них PDF, затем файлы поступают в нашу систему. Тут начинается работа нейросети: она определяет документы по списку (паспорт, страховка, ИНН), а ненужное отправляет в отдельную папку.

Нейросеть определит тип документа и отправит его в нужную папку 

Как нейросеть понимает, какой перед ней документ? Мы скормили ей много данных для обучения: поработав с тысячами паспортов, она выделила для себя отличительные черты документа и теперь ориентируется по ним. Увидев паспорт клиента, нейросеть классифицирует его с точностью до 99,97%. Мы решили задачу — свели участие человека к минимуму. Но это еще не все.

С какими сложностями мы столкнулись

Часто пользователь присылает перевернутые изображения, фотографии с искаженной перспективой, и сотруднику офиса приходится подгонять файлы под нужный формат (и это помимо сортировки!). Стало понятно, что базовых функций классификатора недостаточно, чтобы разгрузить офис, поэтому мы приступили к апгрейду.

Перевернуть документ, вырезать фон — это дополнительная нагрузка на офис  

Классификатор — 2.0

Сначала мы отправили нейросеть на дополнительное обучение: это необходимо, чтобы помимо паспортов она научилась работать с более редкими документами, которые нужны компании. Мы расширили датасет, и теперь распознавание распространяется на 40 типов: ОГРН, договоры, доверенности и другие многостраничные документы.

Забавный факт: пользователи часто присылают файлы, которые не нужны компании. Например, селфи, обрывки бумаг и фотографии котов (а кто не хочет похвастаться пушистым красавчиком). Такие данные тоже нужны — так классификатор лучше распознает брак.

Коты, дети, селфи — что только не попадается во входящих документах

Затем мы научили нейросеть переворачивать документы прямо в процессе обработки, чтобы это не приходилось делать человеку. И заодно — исправлять перспективное искажение там, где это необходимо.

Сортировка документов — больше не проблема

Благодаря классификатору у сотрудников появилось время на интересные задачи. Офис больше не тонет в бумагах, проверяя одни и те же документы. Теперь это делают специально обученные нейросети: начав с простой задачи по сортировке, мы расширили их возможности. И это не конец — в работе банков и других компаний с большим документооборотом осталось еще множество процессов, которые можно улучшить с помощью ИИ. Об этом расскажем в следующий раз!

Мы не только создаем нейросети, но и рассказываем о важных событиях из мира ИИ Telegram-канале.

{ "author_name": "Dbrain", "author_type": "self", "tags": ["\u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0435\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435"], "comments": 13, "likes": 35, "favorites": 49, "is_advertisement": false, "subsite_label": "services", "id": 75975, "is_wide": false, "is_ugc": true, "date": "Fri, 19 Jul 2019 12:16:41 +0300", "is_special": false }
Объявление на vc.ru
0
13 комментариев
Популярные
По порядку
Написать комментарий...
1

Чтобы избавить офис от монотонной работы и ускорить обслуживание клиента, мы разработали решение на основе машинного обучения.

вы представьтесь что ли. что за фирма, чем занимаетесь ;]

Ответить
0

Мы — Dbrain, компания, разрабатывающая решения в области машинного обучения. Сейчас во всю пилим OCR — быстро распознаем и оцифровываем документы. Вот тут подробней: https://ru.docr.dbrain.io

Ответить
0

"Увидев паспорт клиента, нейросеть классифицирует его с точностью до 99,97%" - Коллеги, чтобы говорить о точности нужно приводить информацию о датасете, на котором она получена. В данном случае интересно на чем вы измеряли? На фотографиях, сканах? Это были оригиналы или ксерокопии? Есть ещё нюансы получения изображений, без указания которых цифры мало о чем говорят. А если говорить об указанной вами точности, то для такого замера вы должны были получить от заказчика датасет из примерно 10000 изображений с паспортами РФ. Круто, что вы смогли найти такого клиента.

Ответить
1

Очень нужная разработка, давно подумываю как бы разгрести и систематизировать весь накопившийся за годы хлам.
Иногда в этих археологических раскопках нахожу хорошие вещи, о которых давно уже забыл

Ответить
1

1) "Теперь можно отправить заявку через сайт, прикрепив требуемые файлы."
2) "Каждый день сотрудники офиса загружают стопки бумаг в поточный сканер".

Ответить
0

Обработка происходит только онлайн?

Ответить
1

Алексей, здравствуйте! Не только — решение можно развернуть локально, а не использовать онлайн в облаке

Ответить
0

Круто!

Ответить
0

Затестим

Ответить
0

Где вы нашли ссылку на тестирование?

Ответить
1

Там гиперссылка на слове «система»

Ответить
0

Привет! Да, все есть

Ответить

Комментарии

null