Vy от Vercept: AI-агент видит ваш экран и делает ВСЁ за вас !
Игорь Телегин на связи! Коллеги, представьте AI-ассистента, который не просто болтает, а видит ваш экран, понимает, что на нем, и сам кликает мышкой, печатает и управляет любыми вашими приложениями. Захотели билет – он зайдет на сайт и купит. Нужно видео отредактировать – откроет редактор, улучшит звук, смонтирует и загрузит на YouTube. Фантастика? Уже нет!
Встречайте – Vy, AI-агент от компании Vercept. Эти ребята (бывшие из Allen Institute for AI) решили перевернуть наше взаимодействие с компом. И Vy – их первый шаг. Я разобрался, что это за зверь, и готов поделиться.
1. Vercept и Vy: "Супер-компьютер" у вас на Mac (Windows скоро)
- Vercept – компания с миссией: дать вам возможность управлять компом голосом, а он будет делать на порядок больше.
- Vy – их первый продукт (бета для Mac, Windows на подходе). Это AI-агент, который:Видит ваш экран: Анализирует UI.Понимает команды: "Найди билеты в Сочи", "Сделай презентацию по этой теме".Работает с любыми программами и сайтами: Кликает, печатает, копирует – как невидимый помощник.Без API: Ему не нужны интеграции. Он работает с тем, что видит.И да, пока бесплатно!
2. Как эта магия работает? (Он реально "смотрит" и "кликает")
Vy:
- "Смотрит" на экран (компьютерное зрение).
- "Думает" (LLM), составляя план действий.
- "Действует", эмулируя ваши клики и ввод с клавиатуры.
В демо Vy сам улучшил аудио в видео через Adobe Podcast, смержил с видеодорожкой в FFmpeg и загрузил на YouTube с тайтлом и описанием – по одной голосовой инструкции!
3. Кейсы: Что Vy уже умеет (и от чего дух захватывает)?
- Автоматизация контента: От сырого видео до публикации на YouTube – все делает AI.
- Комплексный ресерч + отчет: Попросили Vy сделать исследование по теме (через Perplexity AI), результат скопировать в Gamma AI и создать презентацию. Vy сам открывал браузер, сайты, копировал, переключался между приложениями!
- Работа с таблицами: "Возьми топ-3 песни из Spotify и добавь в Google Таблицу". Vy открывает Spotify, копирует, открывает Google Sheet, вставляет.
- Анализ контента: Открыть YouTube-видео или PDF и спросить: "О чем это?".
4. Vy vs MCP (Model Context Protocol): Кто круче для "рукастого" AI?
MCP – это стандарт для подключения LLM к внешним инструментам через API. Vy же работает с любым графическим интерфейсом, даже если у программы нет API. Это как универсальный пульт управления вашим компом.
5. Подводные камни (бета есть бета):
- Скорость: Пока не всегда быстро. Команда работает над этим.
- "Монополия" на комп: Когда Vy работает, вы не можете им пользоваться. Решение – виртуальная машина (Parallels).
- Ошибки: Может "тупить" или ошибаться. Нужен присмотр.
- Приватность: Изображения экрана уходят на серверы Vercept (шифруются, хранятся недолго). Учитывайте при работе с чувствительной инфой.
6. Как пощупать это AI-будущее (бесплатно)?
- Идете на сайт Vercept.
- Качаете Vy для Mac.
- Устанавливаете, логинитесь.
- Вызываете Vy и даете ему первую задачу!
Итог: Vy от Vercept – это заявка на революцию в HCI
AI-агент, управляющий любыми программами через UI – это что-то из будущего, которое уже здесь. Да, технология сырая, но потенциал огромен: от автоматизации рутины до выполнения сложных многоэтапных проектов.
Это уже не "поболтать с AI", а дать ему реальную работу.
P.S. Как вам такой AI-агент? Какие задачи вы бы ему доверили? А может, есть опасения?