Когда‑то давным‑давно в распознавание не было end‑to‑end, то есть, изображение строки сначала сегментировали на символы, а потом эти символы распознавали. А потом поняли, что сегментация — очень сложная задача, когда у вас не скан черно‑белого идеального документа, а что‑то из реальной современной жизни. Кстати, именно из‑за этого на современных капчах символы часто пишут впритык и добавляют лишние графические элементы. Какое‑то время в сегментацию вбивали разные костыли (как‑то ограничения на пропорции символов, китайские иероглифы вот квадратные, на разрывность символов и тд) и получали методы, заточенные под конкретные кейсы и выборки, что печально. Так что в какой‑то момент многие стали переходить на end‑to‑end схемы, тем более что уже были рекуррентные сети. Хотя надо признать, что многие не сдаются например, рисунок ниже взят из работы 2017 года [IcdarSegm], где метод работает в предположении, что шрифт моноширинный и что картинка строго обрезана по границам слова.