Даёшь автозамену "что бы" на "чтобы" на уровне сетевых протоколов? Глаза болят уже от этой детской…

Yoo MeRxx

Трибуна

02.07.2022

ReHand – распознавание рукописного текста

260260

Shoo

02.07.2022

Очень надеялся найти в статье ответы на вопрос "Зачем?" и сравнение с кучей уже существующих OCR-сервисов и инструментов.
К сожалению, не нашел.

исправлять ошибки в тексте, при этом сохраняя смысл.На самом деле, это очень вредная фича.
Важно понимать, что вы исправляете не ошибки, а то, что система посчитала ошибкой.
Как результат, полученный текст нужно основательно вычитывать и сверять с оригиналом, что бы убедиться что "автозамена" нигде не налажала.
Это, как правило, выливается в ещё более трудозатратный процесс, чем просто транскрибация рукописного текста.
Особенно больно и актуально это становится, когда на вход прилетает текст, по своей специфике и тематике не схожий с корпусом обучения.
Там уверенность OCR начинает падать, а правильность гипотез автозамены ползёт вниз по экспоненте.

Мой совет - не занимайтесь автозаменой, никогда.
Подсвечивать ошибки и предлагать варианты - да, исправлять автоматически - нет.
То же самое в ситуациях, когда уверенность нейросетки в правильности распознавания не абсолютна (допустимый трэшхолд надо замерять имперически).

Ну и отдельный вопрос:
Как работает на миксах языков, англицизмах, смеси из языкового и символьного текста?

И вообще, метрик нехватает.

Ответить

Yoo MeRxx

02.07.2022

Автор

Автозамены и исправления можно отключить

Ответить

user0564335

02.07.2022

разве много OCR предлагают качественное распознавание рукописного русскоязычного текста, написанного не печатным почерком?

Что точность тут не 100% вроде как очевидно и никакой OCR такого гарантировать не может, так что в любом случае использовать результаты не проверяя, полагаясь на один OCR, нельзя.

Мне кажется, это инструмент скорее для помощи определённым специалистам (проверяющим экзамены, работающим с заявлениями и документами). И да, время от времени ошибки придётся исправлять вручную, но если автокоррекция и правда учитывает контекст, то делать это придётся не так уж часто. Зато люди освободятся от рутинного вглядывания в кривой почерк и его перепечатывания, а в оригинал будут заглядывать только в случае, если у результата низкая уверенность или очевидно, что по смыслу в тексте должно было стоять что-то другое

Ответить

Дмитрий Савчук

05.07.2022

Даёшь автозамену "что бы" на "чтобы" на уровне сетевых протоколов? Глаза болят уже от этой детской ошибки.

Ответить