Vy от Vercept: AI-агент видит ваш экран и делает ВСЁ за вас !

Игорь Телегин на связи! Коллеги, представьте AI-ассистента, который не просто болтает, а видит ваш экран, понимает, что на нем, и сам кликает мышкой, печатает и управляет любыми вашими приложениями. Захотели билет – он зайдет на сайт и купит. Нужно видео отредактировать – откроет редактор, улучшит звук, смонтирует и загрузит на YouTube. Фантастика? Уже нет!

Vy от Vercept: AI-агент видит ваш экран и делает ВСЁ за вас !

Встречайте – Vy, AI-агент от компании Vercept. Эти ребята (бывшие из Allen Institute for AI) решили перевернуть наше взаимодействие с компом. И Vy – их первый шаг. Я разобрался, что это за зверь, и готов поделиться.

1. Vercept и Vy: "Супер-компьютер" у вас на Mac (Windows скоро)

  • Vercept – компания с миссией: дать вам возможность управлять компом голосом, а он будет делать на порядок больше.
  • Vy – их первый продукт (бета для Mac, Windows на подходе). Это AI-агент, который:Видит ваш экран: Анализирует UI.Понимает команды: "Найди билеты в Сочи", "Сделай презентацию по этой теме".Работает с любыми программами и сайтами: Кликает, печатает, копирует – как невидимый помощник.Без API: Ему не нужны интеграции. Он работает с тем, что видит.И да, пока бесплатно!

2. Как эта магия работает? (Он реально "смотрит" и "кликает")

Vy:

  1. "Смотрит" на экран (компьютерное зрение).
  2. "Думает" (LLM), составляя план действий.
  3. "Действует", эмулируя ваши клики и ввод с клавиатуры.

В демо Vy сам улучшил аудио в видео через Adobe Podcast, смержил с видеодорожкой в FFmpeg и загрузил на YouTube с тайтлом и описанием – по одной голосовой инструкции!

3. Кейсы: Что Vy уже умеет (и от чего дух захватывает)?

  • Автоматизация контента: От сырого видео до публикации на YouTube – все делает AI.
  • Комплексный ресерч + отчет: Попросили Vy сделать исследование по теме (через Perplexity AI), результат скопировать в Gamma AI и создать презентацию. Vy сам открывал браузер, сайты, копировал, переключался между приложениями!
  • Работа с таблицами: "Возьми топ-3 песни из Spotify и добавь в Google Таблицу". Vy открывает Spotify, копирует, открывает Google Sheet, вставляет.
  • Анализ контента: Открыть YouTube-видео или PDF и спросить: "О чем это?".

4. Vy vs MCP (Model Context Protocol): Кто круче для "рукастого" AI?

MCP – это стандарт для подключения LLM к внешним инструментам через API. Vy же работает с любым графическим интерфейсом, даже если у программы нет API. Это как универсальный пульт управления вашим компом.

5. Подводные камни (бета есть бета):

  • Скорость: Пока не всегда быстро. Команда работает над этим.
  • "Монополия" на комп: Когда Vy работает, вы не можете им пользоваться. Решение – виртуальная машина (Parallels).
  • Ошибки: Может "тупить" или ошибаться. Нужен присмотр.
  • Приватность: Изображения экрана уходят на серверы Vercept (шифруются, хранятся недолго). Учитывайте при работе с чувствительной инфой.

6. Как пощупать это AI-будущее (бесплатно)?

  1. Идете на сайт Vercept.
  2. Качаете Vy для Mac.
  3. Устанавливаете, логинитесь.
  4. Вызываете Vy и даете ему первую задачу!

Итог: Vy от Vercept – это заявка на революцию в HCI

AI-агент, управляющий любыми программами через UI – это что-то из будущего, которое уже здесь. Да, технология сырая, но потенциал огромен: от автоматизации рутины до выполнения сложных многоэтапных проектов.

Это уже не "поболтать с AI", а дать ему реальную работу.

P.S. Как вам такой AI-агент? Какие задачи вы бы ему доверили? А может, есть опасения?

1 комментарий