Как использовать искусственный интеллект для автоматизации работы с документами и каких результатов ждать в итоге
Что такое OCR, почему процент автоматизации документооборота довольно низкий, и что мы в компании Dbrain узнали в процессе разработки собственного решения
Сегодня искусственный интеллект охватывает все больше и больше сфер — проверяет готовность пиццы, разыскивает преступников и анализирует происхождение Большого взрыва. В этой статье мы решили поговорить о куда более повседневном кейсе: как автоматизировать работу с документами, уменьшив время их обработки до нескольких секунд, и почему, если этого не сделать, может остановиться рост почти любой компании.
Что такое OCR?
С увеличением документооборота — бесконечных оформлений, договоров, заполнений, перезаполнений и форм — растут издержки на бэк-офис. Отдел, в свою очередь, не только требует руководства, но и влетает в копеечку: держать большой штат и грамотно им управлять — сложно и дорого. Давайте поймем, почему автоматизация здесь просто обязательна.
Представим ситуацию: вы хотите взять кредит. Ваш паспорт быстро сканируют, данные автоматически проверяются, и через пару минут одобряют заявку. Это становится возможным благодаря тому, что мы убираем необходимость выполнять рутинные действия сотрудника — ручное внесение данных из документа в систему. Именно по такому принципу работает OCR (Optical Character Recognition), технология оптического распознавания символов. Она находит изображение, за секунду разбивает его на отдельные поля, извлекает необходимые данные и автоматически заносит их в нужные формы, договоры, CRM, заявки. Ручная работа минимизируется; любые процессы, связанные с обработкой документов, ускоряются в разы.
В результате технология оптимизирует бумажную работу и, как следствие, может сократить издержки на бэк-офис вплоть до полного закрытия штата, а заодно повысить у операторов удовлетворенность работой — теперь они смогут уделять клиентам больше времени.
Кейсы применения
В повседневной жизни OCR применяется в самых разных случаях. Вот некоторые из них:
- автоматическое чтение банковских карт;
- моментальное распознавание паспорта;
- автозаполнение данных счета для оплаты в личном кабинете;
- быстрое внесение данных в договор;
сверка данных о клиенте из разных источников;
автозаполнение CRM;
- и многое другое. Чуть позже мы вернемся к этому.
А теперь давайте поговорим о минусах технологии.
Точность распознавания текста
Первая вариация OCR была изобретена еще в 1950 году в США. Сегодня она представлена разными игроками на рынке, но в процессе собственной разработки и тестирования идеи мы поняли, что существующие решения работают далеко не во всех случаях. И вот почему.
Сейчас качество распознавания полей в условном паспорте не превышает 85%. Алгоритм не умеет работать без ошибок, когда речь идет о заломах, засветах или фотографиях, сделанных на телефон. Все эти факторы сильно влияют на качество и мешают системе распознавать текст правильно. Чтобы повысить точность и помочь клиентам, мы внедрили в технологию две новые функции.
- Анализ контекста. Полученный текстовый результат дополнительно прогоняется через нейронную сеть, которая обучена учитывать контекст и автоматически исправлять ошибки. Это очень похоже на то, как Google поправляет опечатки в поиске.
- Концепция human-in-the-loop. Текст, извлеченный системой, в реальном времени передается на ручную проверку квалифицированным разметчикам данных, подключенным к нашей платформе. Они дополняют работу нейросети, исключая возможные ошибки. Комбинация работы алгоритма и человека повышает точность распознавания с 85% до 99% во всех текстах, включая рукописные. Отдельный бонус ручной верификации — она решает проблемы рукописного текста, обучает алгоритм самостоятельно находить и исправлять ошибки, и со временем качество распознавания растет, а расходы остаются на том же уровне.
Безопасность данных
Поскольку мы работаем с концепцией human-in-the-loop и распознавание происходит на наших серверах, встает вопрос о передаче данных и правильном хранении. Как гарантировать безопасность клиентам? Мы используем систему анонимизации, избегая хранения данных на своих серверах. Все это также можно делать, используя сервера и собственный персонал клиента.
Пример для наглядности. Алгоритм размывает изображение и разбивает паспорт на несколько полей на стороне клиента. Информация попадает к нам на сервера в анонимизированном виде: определить, какое поле относится к конкретному человеку, невозможно. Поля распознаются отдельно друг от друга и передаются обратно клиенту с помощью шифрования по протоколу HTTPS. Процесс занимает меньше секунды.
Подключить технологию можно через REST API — то есть очень просто. Этот интерфейс взаимодействия поддерживают почти все системы.
Выводы
С помощью OCR можно сократить или полностью избежать издержек на бэк-офис и ускорить работу всей организации. Даже при работе искусственного интеллекта с персональными данными за результат можно не бояться: существуют решения, гарантирующие полную безопасность и качество распознавания текста до 99%. Технология применима во множестве повседневных кейсов, о которых мы подробно расскажем в следующей статье.