Agentic Vision в Gemini 3 Flash — Ваня Юницкий на vc.ru

(новый этап анализа изображений)

Обычные модели анализируют изображения одним статичным взглядом. Если ропустили деталь - приходится гадать. А вот в Gemini появилась фича Agentic Vision, которая превращает работу с картинками в активный процесс. Модель теперь сама решает, как исследовать изображение – приближает, вращает, размечает.

Как это работает?

Цикл из трех шагов:

• Think: анализирует запрос и картинку, строит план действий

• Act: генерит и выполняет код (масштабирование, аннотации, расчеты)

• Observe: изучает измененное изображение перед финальным ответом

Попробовать можно в Google AI Studio или Vertex AI, включив "Code Execution". В мобильном приложении Gemini функция появляется у тех, кто выбрал "Thinking" в настройках модели.

Подробности в блоге Google

Смотреть видео в Telegram

Подписывайтесь на Telegram Точки над ИИ.