ReHand – распознавание рукописного текста
Всем привет! Недавно создал экспериментальный проект по распознаванию рукописного текста.
На сайте используется связка из трех нейросетей. Сайт способен обнаруживать и распознавать рукописные слова, исправлять ошибки в тексте, при этом сохраняя смысл.
Сайт: rehand.ru
Дополнительные настройки помогут значительно улучшить результат. Вы можете включить автоматическое выравнивание текста, корректировку орфографии и умную обработку текста.
В будущем, планируется возможность создание пользователем шаблонов для сегментации отдельных областей различных категорий изображений. Пользователь сможет выбрать какие места изображения нужно распознать и получать на выходе структурированные данные.
*мы можем обработать, много различных изображений с различным рукописным почерком, но бывают исключения, где наш прототип программы до сих пор не справляется и может выдать плохой результат.
Ниже приведу примеры распознаваний школьных тетрадей и бланков ЕГЭ/ОГЭ
Пример 1:
Пример 2:
Распознай:
лишь, дымишь, дышишь, лишишься, слышишь, симпшлялы, шиания.
Херово распознало. Лилии, ..., шиншиллы, ишемия.
нормально распознало, больше 60% проблемных слов. В реальных текстах не все слова такие. А с этими и людям будет сложно, тем более учитывая вариативность почерков. Априори результат очень даже хороший. Хотелось бы посмотреть на сервис, работающий лучше или на человека, который может это делать с лучшей (или хотя бы той же) скоростью и точностью
Проблемных слов? Это обычные слова, проблема в сервисе, который их не распознает.
нет, с точки зрения распознавания (как человеком, так и машиной), слова совсем не обычные, так как в них подряд стоят несколько символов которые записываются очень похоже. В реальности такие слова в текстах не так часто встречаются, да и сервис не претендует на 100% точность и замену человека. Проблему вы сами себе придумали.
Сервис не направлен на широкое повседневное применение. Это инструмент, который в определённых областях поможет освободить человека от ЧАСТИ рутинной работы. Решений, которые бы со 100% точностью распознавали рукописные тексты не существует и никогда не будет существовать. И человек не всегда на такое способен, с некоторыми словами и особенно запущенными случаями с почерками вам никакой контекст не поможет
Вы высасываете аргументы из пальца. То слова неправильные, то буквы похожие - знаете, как говорится, плохому танцору и ноги мешают... И это вы еще не видели рецептов от некоторых врачей, чей стиль рукописного письма не может распознать никто, кроме особо одаренных фармацевтов. Зачем потребителю сервис, который не может корректно распознать текст?
Может потому что это не для потребителя, а B2B/B2G? Направление ресурса как бы подсказывает.
Зачем - уже описал, чтобы сократить рутинный ручной труд. Сократить, а не избавится от него, потому что избавиться невозможно
Ну как можно было распознать "мышь" вместо "лилии"? Там и близко нет мягкого знака, есть подобия рукописных букв "л", "и", "ш". Следовательно, ваш алгоритм распознавания работает криво, его стоит поправить, а не препираться в комментах.
Во-вторых:
это не для потребителя, а B2B/B2GКак раз для B2C сегмента периодические ошибки были бы некритичны, а в B2B/B2G каждая ошибка - уже очень серьезно. Тем более стоит привести в порядок алгоритм. Вот впарят этот сервис какому-нибудь министерству, у него неправильно распознается, документ некорректный, как следствие юридические коллизии, как следствие проблемы - и кто за эти проблемы будет отдуваться на швабре, догадайтесь с трех раз?
как это получилось объяснить могу, но не буду, ибо как об стенку горох. Скажу за себя: я свой почерк месячной давности разобрать не всегда могу и контекст не всегда помогает, чего в таком случае ждать от машины? Почерк у меня не худший, такая проблема изредка с отдельными словами наблюдается.
Сегменту B2C такая технология в целом не нужна. А если кому-то и нужна, то точность не будет играть критичной роли. А касательно B2B и B2G ещё раз повторяю: этот сервис (как и любой другой аналогичный) не гарантирует 100% точности и не сможет её гарантировать. Машины пока не способны так многослойно мыслить и разбирать контекст, сколько алгоритмы не дорабатывай. Эта технология призвана не заменить человека, а облегчить ему работу. Или тебе с нуля нужно сидеть и текст читать, разбирать что там куда и перепечатывать, или просто сверить готовое и при необходимости пару ошибок поправить - это колоссальная экономия времени в промышленных масштабах.
Со шваброй аналогия так вообще тупая. Решения принимать должен не этот сервис распознавания текста, а человек. И на человеке лежит ответственность за это решение. Его проблемы проверить как распозналось, ибо распознавалось для того чтоб ему не надо было это печатать руками