Google Gemini 2.5 Computer Use: ИИ, который управляет браузером как человек
В октябре 2025 года Google представила модель Gemini 2.5 Computer Use — искусственный интеллект, способный воспринимать визуальный интерфейс и выполнять сложные действия в браузере: клики, ввод текста, прокрутку и заполнение форм.
Что это за технология?
В отличие от традиционной автоматизации через API, Gemini 2.5 Computer Use работает непосредственно с графическим интерфейсом. Модель получает изображение экрана, анализирует его, выбирает и выполняет действия, такие как клики или перетаскивание, повторяя цикл до завершения задачи. Поддерживается 13 видов действий, включая ввод, навигацию и выполнение сложных операций.
Преимущества и достижения
Модель превосходит конкурентов в ключевых тестах: на Online-Mind2Web она показала 76.7% точности против 61.9% и 44.3% у Anthropic и OpenAI соответственно. Внутри Google она уже автоматизирует сложные процессы, экономя дни на ручном исправлении ошибок.
Для кого и как доступна?
Gemini 2.5 Computer Use доступна через Google AI Studio и Vertex AI, ориентирована на бизнес и профессионалов. Запуск усиливает позиции Google на рынке AI-агентов, который к 2025 году превысит $7 млрд.
Стоимость использования платная, что ограничивает массовое использование.
Она примерно соответствует тарифам Gemini 2.5 Pro и выглядит так:
Входные токены (текст, изображение, видео, аудио) до 200 000 токенов — $1.25 за миллион токенов.
Выходные токены (ответ, рассуждения) до 200 000 токенов — $10 за миллион токенов.
При превышении 200 000 токенов стоимость удваивается: входные — $2.50, выходные — $15 за миллион токенов.
В отличие от стандартного Gemini 2.5, для модели Computer Use нет бесплатного тарифа — сразу требуется платная подписка. Также есть дополнительные расходы на хранение контекста и кэширование.
Безопасность и контроль
Google внедрила многоуровневую защиту: действия с повышенным риском требуют подтверждения пользователя, а система предотвращает несанкционированные операции, снижая риски безопасности.
Мнение автора
Google Gemini 2.5 Computer Use — это значительный шаг вперёд в развитии ИИ для браузерной автоматизации, позволяющий выполнять сложные действия через визуальный интерфейс.
Однако для России остаются актуальными проблемы с доступом из-за локальных блокировок и ограничений платежных систем, что значительно снижает потенциальную аудиторию. Высокая стоимость использования модели делает её малодоступной для обычных пользователей.
Ранее в своих статьях я подробно рассказывал о платформе Perplexity и браузере Comet — бесплатном AI-браузере с мощным встроенным ИИ-ассистентом. Эти решения уже сегодня предоставляют удобные инструменты для автоматизации и поиска информации, доступные широкому кругу пользователей. С учетом региональных ограничений и высокой стоимости корпоративных продуктов Google, Comet и Perplexity выглядят реальной альтернативой, особенно для русскоязычной аудитории. Подробнее об этом можно прочитать в моих материалах на VC.ru: