"VCoder" - представляет собой языковую модель, которая обладает способностью описывать содержимое изображений.
Согласно разработчикам, она проявляет более высокую эффективность в определении содержания изображений по сравнению с GPT-4.
GitHub
Demo
Telegram-канал "Age of IT" 👈