Лучшие модели OCR для распознавания текста: Qwen3, Gemini и Paddleocr
Итак, правильный ответ.
Я вас вчера немножко дезинформировал, так как пока сидел, нашел еще парочку хороших моделей 😎
В итоге две модельки из топа смогли корректно распознать как размытый текст с передней части упаковки, так и перевернутую табличку.
1 Qwen3 VL 235b - самый качественный результат
2 Gemini 2.5 flash - уровень по ощущениям чуть ниже qwen, но почти-почти
3 GLM 4.5 VL - распознал много, но уже не все.
Вся первая троица уложилась в 0.2 цента за запрос
Отдельная номинация — малые модели спецом под OCR. Тестил Paddleocr-VL и granite-docling-258m
Обе они с этой картинкой не справились совсем. Однако, для более простых случаев они работают хорошо, а еще — сохраняют позиционную информацию, поэтому подходят для массовой экстракции текстов из сканов.
С paddleocr-vl я смог отсканить здоровенный учебник на 200 страниц с формулами и т.д. И все это заняло 2 часа на моей дохлой ноутбучной 3060 видеокарте.
"Из коробки" заработало не все, но пошаманив с постобработкой bbox и формул, смог добиться очень похожего воспроизведения pdf страниц в виде html. Очень даже годно, можно пользоваться.
Доклинг показался мне похуже, но тут большой разброс какие именно брать бенчмарки, мой вывод очень субъективен.
Итого: если вам нужно сканить всякую рандомную дичь, то я бы брал квен. Если дешево и на большом потоке какие-то бумажные странички, то paddleocr-vl
Подписывайтесь на Telegram Глеб про AI.