Google Gemini 2.5 Computer Use: ИИ, который управляет браузером как человек

Google Gemini 2.5 Computer Use: ИИ, который управляет браузером как человек

В октябре 2025 года Google представила модель Gemini 2.5 Computer Useискусственный интеллект, способный воспринимать визуальный интерфейс и выполнять сложные действия в браузере: клики, ввод текста, прокрутку и заполнение форм.

Что это за технология?

В отличие от традиционной автоматизации через API, Gemini 2.5 Computer Use работает непосредственно с графическим интерфейсом. Модель получает изображение экрана, анализирует его, выбирает и выполняет действия, такие как клики или перетаскивание, повторяя цикл до завершения задачи. Поддерживается 13 видов действий, включая ввод, навигацию и выполнение сложных операций.

Преимущества и достижения

Модель превосходит конкурентов в ключевых тестах: на Online-Mind2Web она показала 76.7% точности против 61.9% и 44.3% у Anthropic и OpenAI соответственно. Внутри Google она уже автоматизирует сложные процессы, экономя дни на ручном исправлении ошибок.

Для кого и как доступна?

Gemini 2.5 Computer Use доступна через Google AI Studio и Vertex AI, ориентирована на бизнес и профессионалов. Запуск усиливает позиции Google на рынке AI-агентов, который к 2025 году превысит $7 млрд.

Стоимость использования платная, что ограничивает массовое использование.

Она примерно соответствует тарифам Gemini 2.5 Pro и выглядит так:

Входные токены (текст, изображение, видео, аудио) до 200 000 токенов — $1.25 за миллион токенов.

Выходные токены (ответ, рассуждения) до 200 000 токенов — $10 за миллион токенов.

При превышении 200 000 токенов стоимость удваивается: входные — $2.50, выходные — $15 за миллион токенов.

В отличие от стандартного Gemini 2.5, для модели Computer Use нет бесплатного тарифа сразу требуется платная подписка. Также есть дополнительные расходы на хранение контекста и кэширование.

Безопасность и контроль

Google внедрила многоуровневую защиту: действия с повышенным риском требуют подтверждения пользователя, а система предотвращает несанкционированные операции, снижая риски безопасности.

Мнение автора

Google Gemini 2.5 Computer Use — это значительный шаг вперёд в развитии ИИ для браузерной автоматизации, позволяющий выполнять сложные действия через визуальный интерфейс.

Однако для России остаются актуальными проблемы с доступом из-за локальных блокировок и ограничений платежных систем, что значительно снижает потенциальную аудиторию. Высокая стоимость использования модели делает её малодоступной для обычных пользователей.

Ранее в своих статьях я подробно рассказывал о платформе Perplexity и браузере Comet — бесплатном AI-браузере с мощным встроенным ИИ-ассистентом. Эти решения уже сегодня предоставляют удобные инструменты для автоматизации и поиска информации, доступные широкому кругу пользователей. С учетом региональных ограничений и высокой стоимости корпоративных продуктов Google, Comet и Perplexity выглядят реальной альтернативой, особенно для русскоязычной аудитории. Подробнее об этом можно прочитать в моих материалах на VC.ru:

Начать дискуссию