Google начала открывать доступ к функции анализа экрана с помощью Gemini в браузере Chrome — сначала в США
Первыми впечатлением о её работе поделилось The Verge.
- На презентации I/O 2025 Google анонсировала, что Gemini сможет просматривать экран и камеру пользователя и отвечать на вопросы по содержанию сайтов. Пока функции появились у подписчиков AI Pro и AI Ultra из США.
- ИИ-помощника вызывает новый значок Gemini в Chrome, также добавили сочетание клавиш Alt+G. С моделью можно общаться в чате или перейти в голосовой режим по кнопке Live.
Пользователь соцсети X просит Gemini в голосовом режиме объяснить, что Google показывает в ролике для разработчиков с презентации I/O 2025. Источник: Paul Couvert
- Как пишет The Verge, с функцией просмотра экрана Gemini может анализировать только то, что она «увидела» на вкладке. Поэтому при пересказе статьи или, например, раздела с комментариями, нужно «показать» модели всю страницу. В тесте Gemini смогла пересказать несколько материалов и перечислить игровые новости с главной страницы издания.
Пользователь просит Gemini пересказать статью, открытую в браузере. Источник: Paul Couvert
- По мнению журналиста The Verge, самое полезное применение функции — это работа с видео, например, для краткого пересказа рецептов. Также Gemini помогла понять, какие инструменты используют в роликах про ремонт ванной и замену конденсатора на материнской плате.
Gemini пересказывает рецепт из ролика на YouTube. Здесь и далее источник: The Verge
- При этом Gemini не всегда точно передавала информацию из видео, особенно если в них не было таймкодов. В одном из примеров она не смогла определить, где снят ролик MrBeast про города майя. В другом — не нашла конкретные строительные инструменты в онлайн-магазинах.
- Издание отмечает, что Gemini хорошо анализирует все разделы и маленькие подзаголовки на сайтах. В частности, она смогла найти водонепроницаемые сумки на Amazon.
- При этом Gemini может извлекать информацию только из одной вкладки в рамках одного запроса. Если пользователь переходит с сайта на сайт, она не сможет сориентироваться.
- Также письменные ответы Gemini могут показаться «слишком длинными для всплывающего окна в браузере», она составляет сводки на несколько абзацев.
Пересказ статьи от Gemini в браузере
- Google впервые представила ИИ-модель Gemini 2.0 Flash с функцией анализа экрана пользователя в декабре 2024 года. Тогда ей можно было воспользоваться только на платформе для разработчиков AI Studio.
38 комментариев