Vision-Language Models (VLM) за последние пару лет стали де-факто универсальным инструментом для работы с изображениями: от описания сцен и VQA до извлечения текстовой информации. В бенчмарках и демо они часто показывают впечатляющие результаты — при условии, что входные данные достаточно «чистые».
Однако в реальных системах изображения редко…