{"id":14279,"url":"\/distributions\/14279\/click?bit=1&hash=4408d97a995353c62a7353088166cda4ded361bf29df096e086ea0bbb9c1b2fc","title":"\u0427\u0442\u043e \u0432\u044b\u0431\u0435\u0440\u0435\u0442\u0435: \u0432\u044b\u0435\u0445\u0430\u0442\u044c \u043f\u043e\u0437\u0436\u0435 \u0438\u043b\u0438 \u0437\u0430\u0435\u0445\u0430\u0442\u044c \u0440\u0430\u043d\u044c\u0448\u0435?","buttonText":"","imageUuid":""}

Что такое HITL и как он помогает распознавать документы

Каждый год машинное обучение становится более совершенным. Но концепция «больше обучающих данных = лучшая производительность» будет работать всегда независимо от степени развития искусственного интеллекта.

Чтобы нейросеть училась быстрее и меньше ошибалась, нужна помощь человека — такой подход называется HITL, или ручное распознавание. Рассказываем про него подробнее на примере распознавания документов.

Что такое HITL

Human-in-the-loop (HITL) — это подход, который позволяет алгоритмам на основе машинного обучения работать вместе с людьми в реальном времени. Например, когда ИИ не может разобрать рукописное слово или столкнулся с наслоением букв в печатном тексте. Если машина сомневается, она может позволить человеку вмешаться, чтобы разрешить эту неопределенность. Важно то, что в результате такого взаимодействия для нейросети становится доступен правильный ответ в задаче, который в дальнейшем используется для дообучения алгоритма.

Модели искусственного интеллекта не могут работать со 100% точностью так, как это требуется для бизнес-процесса. Точность чаще всего падает, потому что «знание» нейросети основывается на тех примерах, которые участвовали в ее дообучении. Но открытых и данных компании не хватает для достижения идеальной производительности. Поэтому в систему добавляют HITL, чтобы с помощью человека повысить точность распознавания.

Как это работает

Перед распознаванием текста все документы нарезаются на отдельные поля. А затем нейросеть предсказывает, что внутри них написано. После этого другой алгоритм сравнивает, насколько распознанная буква или цифра в поле походит на ту, что когда-то нейросеть уже видела. В результате для каждого поля устанавливается степень уверенности в правильности распознавания. Если это число ниже нужного, то распознанный текст отправляется на проверку человеку.

На этапе ручной разметки мы первым делом спрашиваем одного человека: действительно ли на изображении написано то, что распознала нейросеть?

Если ответ «да», то этот же вопрос задают другому человеку, чтобы убедиться в правильности ответа. Если и второй отвечает «да», то нейросетка радостно продолжает работать дальше.
В случае, если первый или второй человек ответил «нет» — изображением отправляют на второй этап, где люди вручную оцифровывают текст с картинки.

Мы в Dbrain в качестве платформы ручной разметки используем «Яндекс.Толоку», благодаря чему запросы обрабатываются в любое время суток. При этом все данные деперсонализированы: для разметки один человек получает поля из разных документов, поэтому собрать полный набор информации не получится. Также мы можем организовать проверку текста и на стороне клиента.

Как мы проверяем корректность ручного распознавания

В ручном распознавании участвует до семи человек — и всем нужно прийти к консенсусу, что же все-таки написано в поле. Есть простые поля, такие как фамилия, место или дата рождения. В этом случае всё довольно просто: для сравнения мы используем посимвольное соответствие. Тот текст, который совпал с точностью до символа у большей части людей, считается верным.

Но бывают и более сложные ситуации, например, описание места ДТП из европротокола. В этом случае прийти к посимвольному соответствию труднее, поэтому мы применяем расстояние Левенштейна — оно показывает, насколько блоки текста отстают друг от друга. Например, если у одного человека написана запятая, а у другого — точка, то расстояние Левенштейна равно одному. В качестве правильного ответа выбираются те варианты, которые меньше всего отстают от остальных, то есть с минимальным расстоянием.

Также есть различные приемы, которые работают только для конкретного поля. Например, для блока с регистрацией по месту жительства используются всплывающие подсказки на основе данных из Федеральной информационной адресной системы. В этом случае правильность ответа оценивается по длине ответа разметчиков. Допустим, есть три варианта: «Северодвинск, улица Ломоносова», «Северодвинск, улица Ломоносова, дом 3, квартира 5» и «Северодвинск, улица Ломоносова, дом 3». В этом случае нейросеть примет второй вариант.

При распознавании автомобильных номеров алгоритм будет смотреть, насколько в целом возможно существование такой комбинации. А марка автомобиля сравнивается с нормативным написанием. Мы просим людей писать все слова так, как написано в словаре, а не в документе, чтобы клиент на выходе получил нормализованный ответ. Неважно, как человек написал в документе Chevrolet: «Шевроле», Chevrole, Shevrole или как-то еще. Правильно будет указать в качестве распознанного текста Chevrolet. А модель машины должна четко соответствовать марке. И та или иная проверка есть для каждого поля.

Что дает HITL

Чем больше нейросеть получает данных для обучения, тем выше точность ее распознавания. Например, за полгода обучения на данных компании точность нейросети может вырасти с 50% до 98%. Дообучение, основанное на HITL, в перспективе удешевляет и ускоряет процесс, так как алгоритмы могут правильно распознавать как можно большее число полей в документах.

Машинное обучение, которое работает в синергии с человеком, — тренд последних несколько лет уже не только среди крупных корпорации, но и малых и средних компаний. У такого взаимодействия есть ряд плюсов:

  • автоматизация задач снижает нагрузку с персонала;
  • участие людей повышает точность нейросети как в моменте, так и в перспективе;
  • нейросеть учится на данных компании.
0
Комментарии
-3 комментариев
Раскрывать всегда