Сервисы Dbrain
1441

Без сна и отдыха: нейросеть, которая за секунду сортирует и обрабатывает документы

Частая проблема компаний — большой поток входящих документов, которые сотрудники вынуждены обрабатывать вручную.

В закладки
Аудио

Чтобы избавить офис от монотонной работы и ускорить обслуживание клиента, мы в Dbrain разработали решение на основе машинного обучения. Это история одного классификатора, который научился сортировать документы и не только.

Как устроена работа офиса

Раньше клиент шел в офис компании, чтобы предоставить документы. Теперь можно отправить заявку через сайт, прикрепив требуемые файлы. Это упростило жизнь клиенту, но не компании — входящие документы по-прежнему обрабатываются вручную.

Каждый день сотрудники офиса загружают стопки бумаг в поточный сканер, проверяют наличие файлов, нужных для заявки, сортируют их и перепечатывают содержание во внутреннюю систему. Это медленный процесс — клиент вынужден ждать, пока заявка обработается, а сотрудник тонет в рутинной работе.

Как мы придумали сортировщика документов

Итак, проблема налицо: квалифицированные сотрудники банков тратят часы на обработку входящей документации. Мы решили оптимизировать этот процесса с помощью машинного обучения (куда же без него?).

Для начала мы создали простой классификатор. Идея такая: человек загружает бумаги в сканер, он делает из них PDF, затем файлы поступают в нашу систему. Тут начинается работа нейросети: она определяет документы по списку (паспорт, страховка, ИНН), а ненужное отправляет в отдельную папку.

Нейросеть определит тип документа и отправит его в нужную папку 

Как нейросеть понимает, какой перед ней документ? Мы скормили ей много данных для обучения: поработав с тысячами паспортов, она выделила для себя отличительные черты документа и теперь ориентируется по ним. Увидев паспорт клиента, нейросеть классифицирует его с точностью до 99,97%. Мы решили задачу — свели участие человека к минимуму. Но это еще не все.

С какими сложностями мы столкнулись

Часто пользователь присылает перевернутые изображения, фотографии с искаженной перспективой, и сотруднику офиса приходится подгонять файлы под нужный формат (и это помимо сортировки!). Стало понятно, что базовых функций классификатора недостаточно, чтобы разгрузить офис, поэтому мы приступили к апгрейду.

Перевернуть документ, вырезать фон — это дополнительная нагрузка на офис  

Классификатор — 2.0

Сначала мы отправили нейросеть на дополнительное обучение: это необходимо, чтобы помимо паспортов она научилась работать с более редкими документами, которые нужны компании. Мы расширили датасет, и теперь распознавание распространяется на 40 типов: ОГРН, договоры, доверенности и другие многостраничные документы.

Забавный факт: пользователи часто присылают файлы, которые не нужны компании. Например, селфи, обрывки бумаг и фотографии котов (а кто не хочет похвастаться пушистым красавчиком). Такие данные тоже нужны — так классификатор лучше распознает брак.

Коты, дети, селфи — что только не попадается во входящих документах

Затем мы научили нейросеть переворачивать документы прямо в процессе обработки, чтобы это не приходилось делать человеку. И заодно — исправлять перспективное искажение там, где это необходимо.

Сортировка документов — больше не проблема

Благодаря классификатору у сотрудников появилось время на интересные задачи. Офис больше не тонет в бумагах, проверяя одни и те же документы. Теперь это делают специально обученные нейросети: начав с простой задачи по сортировке, мы расширили их возможности. И это не конец — в работе банков и других компаний с большим документооборотом осталось еще множество процессов, которые можно улучшить с помощью ИИ. Об этом расскажем в следующий раз!

Мы не только создаем нейросети, но и рассказываем о важных событиях из мира ИИ Telegram-канале.

#машинноеобучение

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Dbrain", "author_type": "self", "tags": ["\u043c\u0430\u0448\u0438\u043d\u043d\u043e\u0435\u043e\u0431\u0443\u0447\u0435\u043d\u0438\u0435"], "comments": 13, "likes": 35, "favorites": 42, "is_advertisement": false, "subsite_label": "services", "id": 75975, "is_wide": false, "is_ugc": true, "date": "Fri, 19 Jul 2019 12:16:41 +0300" }
{"average":25596,"one":95,"ten":75}
Сколько денег вы откладываете в месяц?
Ответьте и узнаете, сколько копят другие.
0 ₽
70 000+ ₽
0 ₽
{ "id": 75975, "author_id": 233759, "diff_limit": 1000, "urls": {"diff":"\/comments\/75975\/get","add":"\/comments\/75975\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/75975"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 200396, "last_count_and_date": null }
13 комментариев

Популярные

По порядку

Написать комментарий...
1

Чтобы избавить офис от монотонной работы и ускорить обслуживание клиента, мы разработали решение на основе машинного обучения.

вы представьтесь что ли. что за фирма, чем занимаетесь ;]

Ответить
0

Мы — Dbrain, компания, разрабатывающая решения в области машинного обучения. Сейчас во всю пилим OCR — быстро распознаем и оцифровываем документы. Вот тут подробней: https://ru.docr.dbrain.io

Ответить
0

"Увидев паспорт клиента, нейросеть классифицирует его с точностью до 99,97%" - Коллеги, чтобы говорить о точности нужно приводить информацию о датасете, на котором она получена. В данном случае интересно на чем вы измеряли? На фотографиях, сканах? Это были оригиналы или ксерокопии? Есть ещё нюансы получения изображений, без указания которых цифры мало о чем говорят. А если говорить об указанной вами точности, то для такого замера вы должны были получить от заказчика датасет из примерно 10000 изображений с паспортами РФ. Круто, что вы смогли найти такого клиента.

Ответить
1

Очень нужная разработка, давно подумываю как бы разгрести и систематизировать весь накопившийся за годы хлам.
Иногда в этих археологических раскопках нахожу хорошие вещи, о которых давно уже забыл

Ответить
1

1) "Теперь можно отправить заявку через сайт, прикрепив требуемые файлы."
2) "Каждый день сотрудники офиса загружают стопки бумаг в поточный сканер".

Ответить
0

Обработка происходит только онлайн?

Ответить
1

Алексей, здравствуйте! Не только — решение можно развернуть локально, а не использовать онлайн в облаке

Ответить
0

Затестим

Ответить
0

Где вы нашли ссылку на тестирование?

Ответить
1

Там гиперссылка на слове «система»

Ответить
0

Привет! Да, все есть

Ответить
0
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Компания отказалась от email
в пользу общения при помощи мемов
Подписаться на push-уведомления
{ "page_type": "default" }