Google прокачал компьютерное управление ИИ до уровня человека
Google презентовал модель Gemini 2.5 Computer Use - ИИ теперь реально самостоятельно управляет браузером или веб-приложением: кликает кнопки, заполняет формы, скроллит страницы, авторизуется, скачивает файлы, структурирует документы и взаимодействует с онлайн-инструментами как настоящий пользователь, а не просто через API.
Что умеет
- Автоматически открывает страницы, нажимает кнопки, вводит текст.
- Может регистрироваться и логиниться, скачивать файлы, переносить данные между сервисами.
- Работает в браузере - “видит” сайт как человек, а не как код.
- Логика построена на визуальном распознавании: действие → скриншот → анализ → следующее действие (цикл до выполнения задания).
В отличие от конкурентов (ChatGPT Agents или Anthropic Claude), Google пока ограничился браузерным управлением - до полной автоматики ОС шагать не стал (сейчас поддерживается 13 базовых действий).
Преимущества
- Лучшая производительность и отзывчивость по сравнению с аналогами в тестах WebVoyager, Online-Mind2Web и пр..
- Может работать с сайтами, у которых нет открытого API.
- Открытые демо в Browserbase — можно посмотреть реальную работу: оформление заказов, заполнение регистраций, движение по сайтам.
Не отставайте от технологий! Подписывайтесь на Telegram-канал, чтобы быть в курсе последних трендов и лайфхаков.
1 комментарий