{"id":14284,"url":"\/distributions\/14284\/click?bit=1&hash=82a231c769d1e10ea56c30ae286f090fbb4a445600cfa9e05037db7a74b1dda9","title":"\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0444\u0438\u043d\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u043d\u0430 \u0442\u0430\u043d\u0446\u044b \u0441 \u0441\u043e\u0431\u0430\u043a\u0430\u043c\u0438","buttonText":"","imageUuid":""}

ReHand – распознавание рукописного текста

Всем привет! Недавно создал экспериментальный проект по распознаванию рукописного текста.

На сайте используется связка из трех нейросетей. Сайт способен обнаруживать и распознавать рукописные слова, исправлять ошибки в тексте, при этом сохраняя смысл.

Сайт: rehand.ru

Дополнительные настройки помогут значительно улучшить результат. Вы можете включить автоматическое выравнивание текста, корректировку орфографии и умную обработку текста.

В будущем, планируется возможность создание пользователем шаблонов для сегментации отдельных областей различных категорий изображений. Пользователь сможет выбрать какие места изображения нужно распознать и получать на выходе структурированные данные.

*мы можем обработать, много различных изображений с различным рукописным почерком, но бывают исключения, где наш прототип программы до сих пор не справляется и может выдать плохой результат.

Ниже приведу примеры распознаваний школьных тетрадей и бланков ЕГЭ/ОГЭ

Пример 1:

Данную мысль можно обосновать еще одним аргументом.В произведении К.Г.Паустовского Настя, главная героиня Настя, сама занята и не может навещать старую мать.Что касается Катерины Петровны, то она не винит дочь.Удивительно, насколько безгранично любящим может быть сердце матери.Когда же Настя, осознав величину возможной потери, приезжает в деревню, оказывается слишком поздно. Нужно. Таким образом, можно сделать вывод, что проявлять свои чувства и говорить слова любви своим родителям вовремя, что потом может быть слишком поздно.

rehand.ru

Пример 2:

Почему важно сохранять памятники архитектуры? Этой проблеме посвящён текст Владимира Алексеевича Солоухина.Отвечая на вопрос, автор пишет о разрушении множества исторических сооружений в Москве, Спасовой башни и Страстного монастыря Христа Спасителя. Писатель сравнивает, какие грандиозные постройки украшали столицу раньше и какие унылые, обыкновенные здания стоят там сейчас. Этот пример показывает, что город теряет одну из важнейших удивительных частей, когда исчезают В. В.ст.Солоучин делает вывод из своих рассуждений: «На месте уникального города Москвы построен город, город среднеевропейского типа, не выделяющийся ничем особенным.Смысл этого высказывания в том, что памятники, сооружения старины хранят в себе историю и украшают улицы, поражая воображение людей. Позиция автора очевидна.Писатель считает, что памятники архитектуры — это наша гордость. Они являлись важной частью жизни наших предков. В. В.п.Солоучин пишет: «Разружая старину, мы всегда обрываем корни.

rehand.ru

Как вам результат?

0
161 комментарий
Написать комментарий...
Shoo

Очень надеялся найти в статье ответы на вопрос "Зачем?" и сравнение с кучей уже существующих OCR-сервисов и инструментов.
К сожалению, не нашел.

исправлять ошибки в тексте, при этом сохраняя смысл.

На самом деле, это очень вредная фича.
Важно понимать, что вы исправляете не ошибки, а то, что система посчитала ошибкой.
Как результат, полученный текст нужно основательно вычитывать и сверять с оригиналом, что бы убедиться что "автозамена" нигде не налажала.
Это, как правило, выливается в ещё более трудозатратный процесс, чем просто транскрибация рукописного текста.
Особенно больно и актуально это становится, когда на вход прилетает текст, по своей специфике и тематике не схожий с корпусом обучения.
Там уверенность OCR начинает падать, а правильность гипотез автозамены ползёт вниз по экспоненте.

Мой совет - не занимайтесь автозаменой, никогда.
Подсвечивать ошибки и предлагать варианты - да, исправлять автоматически - нет.
То же самое в ситуациях, когда уверенность нейросетки в правильности распознавания не абсолютна (допустимый трэшхолд надо замерять имперически).

Ну и отдельный вопрос:
Как работает на миксах языков, англицизмах, смеси из языкового и символьного текста?

И вообще, метрик нехватает.

Ответить
Развернуть ветку
Дмитрий Савчук

Даёшь автозамену "что бы" на "чтобы" на уровне сетевых протоколов? Глаза болят уже от этой детской ошибки.

Ответить
Развернуть ветку
158 комментариев
Раскрывать всегда