Лучшие модели OCR для распознавания текста: Qwen3, Gemini и Paddleocr

Итак, правильный ответ.

Я вас вчера немножко дезинформировал, так как пока сидел, нашел еще парочку хороших моделей 😎

В итоге две модельки из топа смогли корректно распознать как размытый текст с передней части упаковки, так и перевернутую табличку.

1 Qwen3 VL 235b - самый качественный результат

2 Gemini 2.5 flash - уровень по ощущениям чуть ниже qwen, но почти-почти

3 GLM 4.5 VL - распознал много, но уже не все.

Вся первая троица уложилась в 0.2 цента за запрос

Отдельная номинация — малые модели спецом под OCR. Тестил Paddleocr-VL и granite-docling-258m

Обе они с этой картинкой не справились совсем. Однако, для более простых случаев они работают хорошо, а еще — сохраняют позиционную информацию, поэтому подходят для массовой экстракции текстов из сканов.

С paddleocr-vl я смог отсканить здоровенный учебник на 200 страниц с формулами и т.д. И все это заняло 2 часа на моей дохлой ноутбучной 3060 видеокарте.

"Из коробки" заработало не все, но пошаманив с постобработкой bbox и формул, смог добиться очень похожего воспроизведения pdf страниц в виде html. Очень даже годно, можно пользоваться.

Доклинг показался мне похуже, но тут большой разброс какие именно брать бенчмарки, мой вывод очень субъективен.

Итого: если вам нужно сканить всякую рандомную дичь, то я бы брал квен. Если дешево и на большом потоке какие-то бумажные странички, то paddleocr-vl

Подписывайтесь на Telegram Глеб про AI.

Начать дискуссию