Сервисы Dbrain
2 499

Как использовать искусственный интеллект для автоматизации работы с документами и каких результатов ждать в итоге

Что такое OCR, почему процент автоматизации документооборота довольно низкий, и что мы в компании Dbrain узнали в процессе разработки собственного решения

В закладки

Сегодня искусственный интеллект охватывает все больше и больше сфер — проверяет готовность пиццы, разыскивает преступников и анализирует происхождение Большого взрыва. В этой статье мы решили поговорить о куда более повседневном кейсе: как автоматизировать работу с документами, уменьшив время их обработки до нескольких секунд, и почему, если этого не сделать, может остановиться рост почти любой компании.

Что такое OCR?

С увеличением документооборота — бесконечных оформлений, договоров, заполнений, перезаполнений и форм — растут издержки на бэк-офис. Отдел, в свою очередь, не только требует руководства, но и влетает в копеечку: держать большой штат и грамотно им управлять — сложно и дорого. Давайте поймем, почему автоматизация здесь просто обязательна.

Представим ситуацию: вы хотите взять кредит. Ваш паспорт быстро сканируют, данные автоматически проверяются, и через пару минут одобряют заявку. Это становится возможным благодаря тому, что мы убираем необходимость выполнять рутинные действия сотрудника — ручное внесение данных из документа в систему. Именно по такому принципу работает OCR (Optical Character Recognition), технология оптического распознавания символов. Она находит изображение, за секунду разбивает его на отдельные поля, извлекает необходимые данные и автоматически заносит их в нужные формы, договоры, CRM, заявки. Ручная работа минимизируется; любые процессы, связанные с обработкой документов, ускоряются в разы.

В результате технология оптимизирует бумажную работу и, как следствие, может сократить издержки на бэк-офис вплоть до полного закрытия штата, а заодно повысить у операторов удовлетворенность работой — теперь они смогут уделять клиентам больше времени.

Кейсы применения

В повседневной жизни OCR применяется в самых разных случаях. Вот некоторые из них:

  • автоматическое чтение банковских карт;
  • моментальное распознавание паспорта;
  • автозаполнение данных счета для оплаты в личном кабинете;
  • быстрое внесение данных в договор;
  • сверка данных о клиенте из разных источников;

  • автозаполнение CRM;

  • и многое другое. Чуть позже мы вернемся к этому.

А теперь давайте поговорим о минусах технологии.

Точность распознавания текста

Первая вариация OCR была изобретена еще в 1950 году в США. Сегодня она представлена разными игроками на рынке, но в процессе собственной разработки и тестирования идеи мы поняли, что существующие решения работают далеко не во всех случаях. И вот почему.

Сейчас качество распознавания полей в условном паспорте не превышает 85%. Алгоритм не умеет работать без ошибок, когда речь идет о заломах, засветах или фотографиях, сделанных на телефон. Все эти факторы сильно влияют на качество и мешают системе распознавать текст правильно. Чтобы повысить точность и помочь клиентам, мы внедрили в технологию две новые функции.

  • Анализ контекста. Полученный текстовый результат дополнительно прогоняется через нейронную сеть, которая обучена учитывать контекст и автоматически исправлять ошибки. Это очень похоже на то, как Google поправляет опечатки в поиске.
  • Концепция human-in-the-loop. Текст, извлеченный системой, в реальном времени передается на ручную проверку квалифицированным разметчикам данных, подключенным к нашей платформе. Они дополняют работу нейросети, исключая возможные ошибки. Комбинация работы алгоритма и человека повышает точность распознавания с 85% до 99% во всех текстах, включая рукописные. Отдельный бонус ручной верификации — она решает проблемы рукописного текста, обучает алгоритм самостоятельно находить и исправлять ошибки, и со временем качество распознавания растет, а расходы остаются на том же уровне.

Безопасность данных

Поскольку мы работаем с концепцией human-in-the-loop и распознавание происходит на наших серверах, встает вопрос о передаче данных и правильном хранении. Как гарантировать безопасность клиентам? Мы используем систему анонимизации, избегая хранения данных на своих серверах. Все это также можно делать, используя сервера и собственный персонал клиента.

Пример для наглядности. Алгоритм размывает изображение и разбивает паспорт на несколько полей на стороне клиента. Информация попадает к нам на сервера в анонимизированном виде: определить, какое поле относится к конкретному человеку, невозможно. Поля распознаются отдельно друг от друга и передаются обратно клиенту с помощью шифрования по протоколу HTTPS. Процесс занимает меньше секунды.

Подключить технологию можно через REST API — то есть очень просто. Этот интерфейс взаимодействия поддерживают почти все системы.

Выводы

С помощью OCR можно сократить или полностью избежать издержек на бэк-офис и ускорить работу всей организации. Даже при работе искусственного интеллекта с персональными данными за результат можно не бояться: существуют решения, гарантирующие полную безопасность и качество распознавания текста до 99%. Технология применима во множестве повседневных кейсов, о которых мы подробно расскажем в следующей статье.

Dbrain — платформа для создания искусственного интеллекта. Мы оптимизируем бизнес-процессы с помощью машинного обучения и работаем с компаниями самых разных направленностей. Связаться с нами можно по ссылке.

Материал опубликован пользователем. Нажмите кнопку «Написать», чтобы поделиться мнением или рассказать о своём проекте.

Написать
{ "author_name": "Dbrain", "author_type": "self", "tags": [], "comments": 16, "likes": 17, "favorites": 52, "is_advertisement": false, "subsite_label": "services", "id": 56495, "is_wide": false, "is_ugc": true, "date": "Thu, 24 Jan 2019 17:21:57 +0300" }
{ "id": 56495, "author_id": 233759, "diff_limit": 1000, "urls": {"diff":"\/comments\/56495\/get","add":"\/comments\/56495\/add","edit":"\/comments\/edit","remove":"\/admin\/comments\/remove","pin":"\/admin\/comments\/pin","get4edit":"\/comments\/get4edit","complain":"\/comments\/complain","load_more":"\/comments\/loading\/56495"}, "attach_limit": 2, "max_comment_text_length": 5000, "subsite_id": 200396 }

16 комментариев 16 комм.

Популярные

По порядку

Написать комментарий...
1

Вряд ли вы расскажете, что "под капотом" у вашей системы, но что она представляет собой внешне? Веб-морду для сервера? Десктопное приложение? В каком формате туда нужно загружать данные, какие из готовых решений применялись?

Вы же не пресс-релиз в районную газету прислали, вы сделали публикацию на ресурсе, где технарей достаточно много.

Ответить
0

Не пойму зачем ты свои недомысли приписываешь посторонним людям, потом возбуждаешься, а потом плохо спишь. Когда тебя выпрут с работы и ты будешь околевать под мостом - будет поздно, подумай сейчас и вернись к позитиву и РЕАЛЬНЫМ отношениям, а не суррогатным в сети.
Это тебе даже "отец" интернета подтвердит, сейчас многие прозрели даже он.

Ответить
1

Мы с радостью поделимся подробностями. Наше решение – это набор микросервисов, часть которых клиент ставит у себя, а часть остается у нас в облаке. По сети передаются анонимизированные данные, конечное взаимодействие клиента с сервисом осуществляется через API.

Ответить
1

Да конечно, пишите на почту mo@dbrain.io все расскажем и покажем.)

Ответить
0

пишите на почту, всё расскажем

Это, ребята, классический пример того, как не надо вести коммуникацию с аудиторией.

Ответить
0

Ты у нас сегодня грибов поел?

Ответить
0

Расскажи как надо, я сделаю кофе и вчитаюсь до самого утра.
А?

Ответить
1

В целом в статье мы говорим, что технология не новая, и на рынке существуют хорошие решения. Фокус нашего продукта в том, что мы совмещаем алгоритм распознавания с ручной проверкой людьми на нашей платформе.

Ответить
3

Интересно. А сколько стоит?

Ответить
1

Добрый день, можно написать на почту нашему сотруднику,
он подробно расскажет mo@dbrain.io

Ответить
1

Из контрактов сможете извлекатать участников сделки, условия оплаты, нормы права, даты и т.д.?

Ответить
0

Можем, существующий алгоритм работает с типовыми документами, так же может быть обучение на анкетах и других документах клиента.

Ответить
1

Удивились немного про фото)).... Распознавание паспорта на фотографиях и в видеопотоке на телефоне. Работает в Тинькоффе, Почта Банке, АльфаСтраховании и ...

Ответить
0

Конечно, можно работать с изображениями, снятыми телефоном, но точность все еще не 99%, поэтому мы подключаем к процессу краудворкинг и дообучаем алгоритм в процессе работы.

Ответить
0
{ "page_type": "article" }

Прямой эфир

[ { "id": 1, "label": "100%×150_Branding_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox_method": "createAdaptive", "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfl" } } }, { "id": 2, "label": "1200х400", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfn" } } }, { "id": 3, "label": "240х200 _ТГБ_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fizc" } } }, { "id": 4, "label": "240х200_mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "flbq" } } }, { "id": 5, "label": "300x500_desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "ezfk" } } }, { "id": 6, "label": "1180х250_Interpool_баннер над комментариями_Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "ffyh" } } }, { "id": 7, "label": "Article Footer 100%_desktop_mobile", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjxb" } } }, { "id": 8, "label": "Fullscreen Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjoh" } } }, { "id": 9, "label": "Fullscreen Mobile", "provider": "adfox", "adaptive": [ "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fjog" } } }, { "id": 10, "disable": true, "label": "Native Partner Desktop", "provider": "adfox", "adaptive": [ "desktop", "tablet" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyb" } } }, { "id": 11, "disable": true, "label": "Native Partner Mobile", "provider": "adfox", "adaptive": [ "phone" ], "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "clmf", "p2": "fmyc" } } }, { "id": 12, "label": "Кнопка в шапке", "provider": "adfox", "adaptive": [ "desktop" ], "adfox": { "ownerId": 228129, "params": { "p1": "bscsh", "p2": "fdhx" } } }, { "id": 13, "label": "DM InPage Video PartnerCode", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox_method": "createAdaptive", "adfox": { "ownerId": 228129, "params": { "pp": "h", "ps": "bugf", "p2": "flvn" } } }, { "id": 14, "label": "Yandex context video banner", "provider": "yandex", "yandex": { "block_id": "VI-223676-0", "render_to": "inpage_VI-223676-0-1104503429", "adfox_url": "//ads.adfox.ru/228129/getCode?pp=h&ps=bugf&p2=fpjw&puid1=&puid2=&puid3=&puid4=&puid8=&puid9=&puid10=&puid21=&puid22=&puid31=&puid32=&puid33=&fmt=1&dl={REFERER}&pr=" } }, { "id": 15, "label": "Плашка на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byudx", "p2": "ftjf" } } }, { "id": 16, "label": "Кнопка в шапке мобайл", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "adfox": { "ownerId": 228129, "params": { "p1": "byzqf", "p2": "ftwx" } } }, { "id": 17, "label": "Stratum Desktop", "provider": "adfox", "adaptive": [ "desktop" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvb" } } }, { "id": 18, "label": "Stratum Mobile", "provider": "adfox", "adaptive": [ "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "pp": "g", "ps": "bugf", "p2": "fzvc" } } }, { "id": 19, "label": "Тизер на главной", "provider": "adfox", "adaptive": [ "desktop", "tablet", "phone" ], "auto_reload": true, "adfox": { "ownerId": 228129, "params": { "p1": "cbltd", "p2": "gazs" } } } ]
Команда калифорнийского проекта
оказалась нейронной сетью
Подписаться на push-уведомления
{ "page_type": "default" }