Самый распространенный вариант оцифровки текста - OCR (оптическое распознавание символов), например, Tesseract, EasyOCR или PaddleOCR.
Это уже классическая и проверенная технология, которая используется во многих системах, но у которой есть и свои проблемы:
- плохо обрабатывает необычные шрифты, цветной и низкокачественный текст
- точность распознавания снижается при наличии нескольких языков в тексте
- для распознавания рукописного текста требуется дообучение моделей, что затратно по времени и ресурсам (самое трудное - это собрать качественные данные для дообучения)
В итоге получается, что для каждого узкого кейса надо заново подбирать модель, дообучать её и настраивать.
Но есть и альтернатива!
Vision LLM - это большие языковые модели, обученные работать и с текстом и с изображениями.
У них есть ряд преимуществ:
- распознают печатный и рукописный текст на разных языках
- не требуется дообучение
- отлично справляются с сложными (но небольшими) документами
Есть и недостатки:
- использование VLLM дороже (при использовании сторонних сервисов и на своем железе)
- чем больше текста, тем больше вероятность ошибки
Вы можете сами проверить на сайте optifyhub.ru:
1. Загрузите изображение или PDF-файл.
2. Нажмите кнопку "Распознать текст".
3. Скачайте результат в формате Word.
Всегда перепроверяйте ответ, не доверяйте ИИ! 😐