Google представила Agentic Vision — функция позволяет Gemini «рассматривать», приближать и анализировать файлы в режиме ИИ-агента
Её будут постепенно внедрять в чат-бота.
Gemini в режиме Agentic Vision подключили для проверки строительных планов на платформе Plan Check Solver. Источник: Google
- Google объясняет, что ИИ-модели обычно обрабатывают документы «за один статичный просмотр» и если упускают детали— додумывают содержание.
- Режим Agentic Vision для Gemini 3 Flash позволяет модели писать код на Python для обработки изображения, чтобы приближать и «рассматривать» его. Перед этим она анализирует документ и составляет план по работе с ним.
- Настройка повышает качество работы Gemini на 5-10% в большинстве тестов на компьютерное зрение, заявляет компания. Она также «лучше» анализирует таблицы и графики с большим количеством данных и мелких ячеек.
Источник: Google
- Бета-версия Agentic Vision доступна бесплатно в Google AI Studio и Vertex AI, а также в Gemini API для разработчиков. Его также начали постепенно внедрять в чат-бота Gemini. Для работы нужно включить режим Thinking.
11 комментариев