Google представила Agentic Vision — функция позволяет Gemini «рассматривать», приближать и анализировать файлы в режиме ИИ-агента

Её будут постепенно внедрять в чат-бота.

Gemini в режиме Agentic Vision подключили для проверки строительных планов на платформе Plan Check Solver. Источник: Google
  • Google объясняет, что ИИ-модели обычно обрабатывают документы «за один статичный просмотр» и если упускают детали— додумывают содержание.
  • Режим Agentic Vision для Gemini 3 Flash позволяет модели писать код на Python для обработки изображения, чтобы приближать и «рассматривать» его. Перед этим она анализирует документ и составляет план по работе с ним.
  • Настройка повышает качество работы Gemini на 5-10% в большинстве тестов на компьютерное зрение, заявляет компания. Она также «лучше» анализирует таблицы и графики с большим количеством данных и мелких ячеек.
Источник: Google
Источник: Google
  • Бета-версия Agentic Vision доступна бесплатно в Google AI Studio и Vertex AI, а также в Gemini API для разработчиков. Его также начали постепенно внедрять в чат-бота Gemini. Для работы нужно включить режим Thinking.
12
2
1
11 комментариев