{"id":14284,"url":"\/distributions\/14284\/click?bit=1&hash=82a231c769d1e10ea56c30ae286f090fbb4a445600cfa9e05037db7a74b1dda9","title":"\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0444\u0438\u043d\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u043d\u0430 \u0442\u0430\u043d\u0446\u044b \u0441 \u0441\u043e\u0431\u0430\u043a\u0430\u043c\u0438","buttonText":"","imageUuid":""}

Лучшее — друг хорошего: как дообучить решение на базе машинного обучения

Распознавание документов — актуальный инструмент оптимизации работы бэк-офиса, но даже в простых и изученных решениях нужно экспериментировать для лучшего результата. Сооснователь Dbrain Алексей Хахунов рассказывает на примере последнего кейса, почему дообучение — важное отличие машинного обучения от алгоритмов предыдущего поколения.

Alfred — консьерж-сервис по ремонту и обслуживанию автомобилей в Москве и Московской области. Работает это так: вместо того, чтобы везти машину в сервис самостоятельно, клиент вызывает консьержа по телефону или пишет в мессенджер. Консьерж приезжает и забирает автомобиль в сервис.

Ожидание — реальность

После вызова консьержа клиент параллельно отправляет документы для оформления (паспорт, СТС и страховку) в клиентский чат, чтобы консьерж приехал на место уже с заполненным актом приемки авто. Операторам приходится вручную обрабатывать и перенабирать присланные изображения в акты приемки и CRM-базы, что в среднем занимает около часа.

При ручной обработке часто срабатывает человеческий фактор — возникают ошибки или опечатки, недопустимые при заполнении документов. Клиенту приходится ждать, пока работники все исправят. Такие мелочи снижают ценность сервиса в глазах потребителя — он хотел быстро и беспроблемно отдать машину в сервис, но потратил больше времени, чем рассчитывал.

Нюансы: как отфильтровать нужную информацию

На первый взгляд задача кажется тривиальной: с ней отлично справятся существующие решения по распознаванию документов. На деле у кейса была своя специфика.

1. Клиенты могут присылать в чат документы многостраничными PDF. Иногда попадаются нетиповые или ненужные документы и куски файлов: приходится отделять одни документы от других и доставать нужную для распознавания информацию.

2. Часть документов приходит в рукописном виде, а алгоритма, который умеет расшифровывать рукописный текст, пока не существует.

Все эти факторы приводят к тому, что общее качество распознавания снижается. Выходом из ситуации может стать дообучение алгоритма на конкретных документах клиентов Alfred.

Дообучение алгоритма — функция, позволяющая взять готовое решение и, используя данные конкретного заказчика, откалибровать алгоритм под его кейс.

Нетиповые документы и многостраничность

Документы обычно поступают в одном PDF-файле. Это несколько страниц отсканированных изображений из паспортов, СТС, страховок. Все сканы разного качества. Сначала алгоритм смотрит, какие документы лежат в папке — надо убедиться, что комплект документов соответствует требованию. Затем он должен подтвердить, что перед ним действительно паспорт или СТС, чтобы выполнить само распознавание.

Проанализировав качество работы алгоритма, мы поняли, что алгоритм часто путается при определении класса документа и итоговая точность распознавания не превышает 69%. Чтобы алгоритм работал точнее, нужно было больше данных. Для этого мы попросили операторов Alfred в течение месяца собирать файлы разного типа в 4 разных папки: паспорт, СТС, страховка и «другое». Таким образом мы создали набор данных, которые соответствуют конкретному заказчику и использовали его для дообучения алгоритма классификации.

Рукописный текст: human-in-the-loop в действии

Human-in-the-loop — модель, при которой часть работы по распознаванию остается на людях: они выполняют разметку в реальном времени, тем самым дополняя работу нейросети и исключая ошибки. Для внедрения такой модели мы подключили людей на фрилансе, которые размечали рукописный текст в реальном времени, используя наши интерфейсы. Еще одно преимущество интеграции human-in-the-loop — алгоритм дообучается на ошибках, найденных людьми, и не допускает их в будущем. Чем больше текста человек и алгоритм обработают вместе, тем точнее результат. Сочетание human-in-the-loop и дообучения позволило нам повысить точность до 99%.

В заключение

Доступность технологии и сценарии ее применения растут с каждым годом. Сегодня можно распознать текст даже на плохом изображении и легко понять, какой перед нами документ. Во многом это становится возможным благодаря использованию решений на базе машинного обучения. Собрав дополнительный набор данных, можно повысить точность для любой задачи.

0
Комментарии
-3 комментариев
Раскрывать всегда