Пятерка по распознаванию

Что общего у школьников и гаишников, какие буквы путают машины, можно ли распознать рукописное слово «лишишь» — и при чем тут настоящие высокие технологии

Привет! Марк Цукерберг переименовывает материнскую компанию в «Мета» (намекая на цифровую метавселенную), Ксения Собчак открывает в Москве ресторан с поваром-нейросетью, а мы в Dbrain помогаем людям в других, более приземленных вещах. Например, распознаем рукописный текст. Поверьте, его вокруг нас — тонны, и эти тонны всё прибавляются и прибавляются.

Пятерка по распознаванию

Зачем вообще это нужно

Нам кажется, что мы очень редко сталкиваемся с рукописным текстом. До тех пор, пока нас не остановит сотрудник ДПС и не начнет заполнять протокол — да так, что сам потом не может прочитать написанное. Или пока нашим детям не зададут на дом сочинение. Или пока не попытаемся понять, что написал врач в истории болезни 10 лет назад.

Даже если мы сами почти не соприкасаемся с бумагой, вокруг нас всё равно образуется значительный объем рукописного текста. Быстрое и корректное чтение этого текста обычно не вопрос жизни и смерти, но доставляет немало хлопот.

Например, страховым компаниям важно быстро и безошибочно распознавать европротоколы ДТП или истории болезни, чтобы в стоимость полиса не включали труд целого штата профессиональных расшифровщиков. А учителям здорово бы тратить на проверку домашек не часы, а минуты — читая уже распознанный текст учеников. Так они смогут больше времени потратить на работу с ошибками (в том числе в правописании).

При этом часто ученики, врачи и полицейские пишут в спешке и порой просто для того, чтобы написать (а не для того, чтобы быть понятыми). Распознавать такой текст с точностью 99% — вот это реальная работа для нейросетей. Мы в Dbrain создаем такие нейросети.

Почему это сложно

На рынке не очень много решений для распознавания рукописного текста, и наше — одно из лучших (мама учила быть скромными, но мы прошли курс психотерапии и нам можно). Тому есть несколько причин:

  • Крупные бизнесы (например, страховые) готовы пилить свои решения для своих нужд, но нет сырья и кадров. Чтобы создать решение даже с точностью распознавания 80%, нужно создать «компанию в компании»: привлечь десятки специалистов, потратить годы на разработку. Дешевле жить и работать по старинке.
  • Хорошие решения встречаются у ученых (например, с их помощью распознают рукописи или архивы). Но научная нейронка — это не коммерческий продукт, а делать его таким — не научная задача.

Нам в Dbrain повезло. Например, в том, что у нас мощная экспертиза в распознавании текста и мы можем создавать модели, которые учатся на десятках тысяч «домашек» учеников Skysmart (онлайн-школа для детей и подростков от Skyeng). В процессе разработки модель обучалась на домашних заданиях учителей и тетрадках более 8 млн школьников, которые учатся на интерактивной платформе Skysmart Класс, и которые стали непосредственными участниками создания будущего продукта «Орфограф».

Тем не менее распознавать рукописный текст — это очень сложная задача.

Пятерка по распознаванию

Четыре сложности распознавания рукописного текста

Вариация. Если у печатного текста есть единый стандарт, то у рукописного единого формата нет. Одно и то же слово ребенок, полицейский и врач напишут по-разному. Более того, 100 детей могут написать одно и то же слово десятками способов.

Это увеличивает сложность модели и количество данных, необходимых для ее обучения.

Проверка. Ошибки при распознавании рукописного текста допускают не только алгоритмы, но и люди. Это умножает количество ресурсов, которые нужны для проверки правильности распознавания.

Грубо говоря, при обучении модели мы должны «прогнать» одно и то же слово через трех людей, которые распознают его силой своего естественного интеллекта. Если версия одного из них не совпадает с версией другого, мы должны ее отфильтровать и обучать модель уже на версии двух первых, с которыми случился мэтч. В результате требуется больше ресурсов. Чем больше людей требуется, тем дороже разметка.

Чтобы обучить модель распознавания русских рукописных слов на интерактивной образовательной платформе для учителей и учеников Skysmart Класс, потребовалось около 850 тысяч распознанных слов.

При этом распознавание детских слов еще позволяет чуть упростить разметку — мы учитываем только слова, которые используются в школьной программе. А еще дети хотя бы пытаются писать разборчиво.

Сатурация. В какой-то момент добавление всё большего количества слов для обучения модели не приводит к значительному увеличению качества распознавания. Сегодня мы добиваемся точности распознавания до 90%, и если точность растет, то скорее логарифмически. Добиться еще большей точности возможно, но для этого требуются вложения в архитектуру (что не всегда бывает оправданно).

Одинаковость. В русском языке (особенно в рукописном) немало букв и сочетаний, которые выглядят похоже: о/0, е/с, а/о, г/т, ли/ша и так далее. Человеку приходится продираться сквозь это, тратить драгоценную когнитивную энергию. Мы любим своих детей, знаем их почерк, но читать их сочинения — это очень сложно. А представьте, как трудно бедной машине? Ей за это даже денег не платят.

Ошибки. Кроме задачи распознавания слов есть задача отсеивания ошибок в написании. К примеру, ученик вместо слова «Любится» написал «Любиться». Как понять, что ошибка в слове — это именно ошибка при написании, а не ошибка распознавания? Как учесть эту ошибку в обучении модели? На самом деле это сложная задача.

Если речь про распознавание полицейского протокола или истории болезни пациента, то мы можем исправлять такие ошибки при распознавании слов. С проверкой детских домашек такие ошибки должны оставаться: учителю решать, наказывать двойкой за «Маскву» или нет. Наказать двойкой полицейского мы пока не можем.

Нейронки учатся — и учат

Проект со Skysmart Класс здорово вытянул наши способности в распознавании рукописного текста. Он позволил нам добиться мощности и точности, которые часто оказываются даже избыточными для новых клиентов.

Нам очень повезло обучить модель на живом и востребованном проекте, который решил проблему школьных учителей, у которых ежедневно уходит больше 2 часов в день на проверку домашних заданий. Проект создания «Орфографа» показал, что технологичные компании могут и должны помогать повышать эффективность образовательного процесса, избавлять учителей от рутины с помощью технологий и вносить свою лепту в повышение уровня EdTech в России.

Александр Ларьяновский, управляющий партнер онлайн-школы Skysmart:

«Учителя тонут в проверке килограммов тетрадок, ученики, перегруженные «домашками» по всем предметам и перед страхом «двойки», массово списывают ГДЗ, начиная с 8 класса и до 11-го. Но если автоматизировать процессы проверки домашних заданий, что высвободит время учителя на более тщательную проработку материала в классе, а подросткам предложить онлайн-площадку, где вместо готовых решений будут ходы и логика этих решений, то — я верю — проблему демотивированных учителей и списывающих «лентяев» постепенно можно будет решить».

У модели распознавания рукописного текста большое будущее. Тонны бумаги требуют, чтобы их быстро и качественно распознали. Более того, модель можно «развернуть», чтобы быстро генерировать рукописный текст, в том числе с особенностями написания слов, свойственными для конкретных людей.

Также мы можем дообучать нашу модель для использования в новых проектах. Если у вас полно рукописных данных — вы знаете, что делать (пишите нам прямо сейчас).

3939 показов
517517 открытий
Начать дискуссию