Что такое HITL и как он помогает распознавать документы

Каждый год машинное обучение становится более совершенным. Но концепция «больше обучающих данных = лучшая производительность» будет работать всегда независимо от степени развития искусственного интеллекта.

Чтобы нейросеть училась быстрее и меньше ошибалась, нужна помощь человека — такой подход называется HITL, или ручное распознавание. Рассказываем про него подробнее на примере распознавания документов.

Human-in-the-loop (HITL) — это подход, который позволяет алгоритмам на основе машинного обучения работать вместе с людьми в реальном времени. Например, когда ИИ не может разобрать рукописное слово или столкнулся с наслоением букв в печатном тексте. Если машина сомневается, она может позволить человеку вмешаться, чтобы разрешить эту неопределенность. Важно то, что в результате такого взаимодействия для нейросети становится доступен правильный ответ в задаче, который в дальнейшем используется для дообучения алгоритма.

Модели искусственного интеллекта не могут работать со 100% точностью так, как это требуется для бизнес-процесса. Точность чаще всего падает, потому что «знание» нейросети основывается на тех примерах, которые участвовали в ее дообучении. Но открытых и данных компании не хватает для достижения идеальной производительности. Поэтому в систему добавляют HITL, чтобы с помощью человека повысить точность распознавания.

Что такое HITL и как он помогает распознавать документы

Перед распознаванием текста все документы нарезаются на отдельные поля. А затем нейросеть предсказывает, что внутри них написано. После этого другой алгоритм сравнивает, насколько распознанная буква или цифра в поле походит на ту, что когда-то нейросеть уже видела. В результате для каждого поля устанавливается степень уверенности в правильности распознавания. Если это число ниже нужного, то распознанный текст отправляется на проверку человеку.

На этапе ручной разметки мы первым делом спрашиваем одного человека: действительно ли на изображении написано то, что распознала нейросеть?

Если ответ «да», то этот же вопрос задают другому человеку, чтобы убедиться в правильности ответа. Если и второй отвечает «да», то нейросетка радостно продолжает работать дальше.

В случае, если первый или второй человек ответил «нет» — изображением отправляют на второй этап, где люди вручную оцифровывают текст с картинки.

Мы в Dbrain в качестве платформы ручной разметки используем «Яндекс.Толоку», благодаря чему запросы обрабатываются в любое время суток. При этом все данные деперсонализированы: для разметки один человек получает поля из разных документов, поэтому собрать полный набор информации не получится. Также мы можем организовать проверку текста и на стороне клиента.

В ручном распознавании участвует до семи человек — и всем нужно прийти к консенсусу, что же все-таки написано в поле. Есть простые поля, такие как фамилия, место или дата рождения. В этом случае всё довольно просто: для сравнения мы используем посимвольное соответствие. Тот текст, который совпал с точностью до символа у большей части людей, считается верным.

Но бывают и более сложные ситуации, например, описание места ДТП из европротокола. В этом случае прийти к посимвольному соответствию труднее, поэтому мы применяем расстояние Левенштейна — оно показывает, насколько блоки текста отстают друг от друга. Например, если у одного человека написана запятая, а у другого — точка, то расстояние Левенштейна равно одному. В качестве правильного ответа выбираются те варианты, которые меньше всего отстают от остальных, то есть с минимальным расстоянием.

Также есть различные приемы, которые работают только для конкретного поля. Например, для блока с регистрацией по месту жительства используются всплывающие подсказки на основе данных из Федеральной информационной адресной системы. В этом случае правильность ответа оценивается по длине ответа разметчиков. Допустим, есть три варианта: «Северодвинск, улица Ломоносова», «Северодвинск, улица Ломоносова, дом 3, квартира 5» и «Северодвинск, улица Ломоносова, дом 3». В этом случае нейросеть примет второй вариант.

При распознавании автомобильных номеров алгоритм будет смотреть, насколько в целом возможно существование такой комбинации. А марка автомобиля сравнивается с нормативным написанием. Мы просим людей писать все слова так, как написано в словаре, а не в документе, чтобы клиент на выходе получил нормализованный ответ. Неважно, как человек написал в документе Chevrolet: «Шевроле», Chevrole, Shevrole или как-то еще. Правильно будет указать в качестве распознанного текста Chevrolet. А модель машины должна четко соответствовать марке. И та или иная проверка есть для каждого поля.

Чем больше нейросеть получает данных для обучения, тем выше точность ее распознавания. Например, за полгода обучения на данных компании точность нейросети может вырасти с 50% до 98%. Дообучение, основанное на HITL, в перспективе удешевляет и ускоряет процесс, так как алгоритмы могут правильно распознавать как можно большее число полей в документах.

Машинное обучение, которое работает в синергии с человеком, — тренд последних несколько лет уже не только среди крупных корпорации, но и малых и средних компаний. У такого взаимодействия есть ряд плюсов:

автоматизация задач снижает нагрузку с персонала;
участие людей повышает точность нейросети как в моменте, так и в перспективе;
нейросеть учится на данных компании.

Что такое HITL и как он помогает распознавать документы

Что такое HITL

Как это работает

Как мы проверяем корректность ручного распознавания

Что дает HITL