В ChatGPT встроили ИИ-агента, который работает за вас. И это немного пугает

OpenAI только что превратила свой чат-бот в цифрового ассистента, который может делать покупки, кодить и готовить презентации. Я разобрался, что это за зверь и почему в OpenAI сами его побаиваются.

Я, Михаил Буров, перелопатил всю доступную информацию, и сейчас расскажу, почему это не просто «еще одна фича», а настоящий геймченджер.

Забудьте про старую схему «задал вопрос — получил ответ». Новый «режим агента» работает иначе. Вы ставите ему задачу, а он сам планирует шаги, лезет в интернет, использует другие приложения и выполняет ее.

Deep Research: Умение перерыть десятки сайтов и выдать вам сжатую суть.
Operator: Умение «кликать» по сайтам, как живой человек.

Теперь это всё работает в связке. Вы говорите агенту, ЧТО сделать, а КАК — он решает сам.

Звучит как фантастика? OpenAI приводит вполне конкретные примеры, которые заставляют челюсть упасть на пол. Вот что он может:

Проанализировать конкурентов и собрать презентацию. Вы просто говорите: «Проанализируй компании X, Y и Z и сделай слайды с их сильными и слабыми сторонами». Агент сам найдет их сайты, отчеты, новости и соберет готовую, редактируемую (!) презентацию.
Написать код и сразу сделать коммит на GitHub. Да, у него есть доступ к терминалу и API. Программисты, кажется, у нас новый «младший» в команде.
Спланировать ваш быт. Пример от OpenAI: «Спланируй и купи ингредиенты для японского завтрака на четверых». Агент проверит рецепты, составит список, откроет сайт доставки и сделает заказ.
Работать с вашими данными. Благодаря коннекторам его можно подключить к Gmail, календарю и другим сервисам, чтобы он мог, например, планировать ваши встречи или искать информацию в почте.

Чтобы мы не думали, что это просто красивая обертка, OpenAI выкатила бенчмарки. И там всё очень серьёзно.

Humanity’s Last Exam (сложнейший тест из тысяч вопросов по 100+ темам): новый агент набрал 41.6%. Предыдущий флагман o3 и его младший брат o4-mini не дотягивали и до половины этого результата.
FrontierMath (один из самых сложных математических тестов): агент с доступом к инструментам (типа терминала) показал результат 27.4%. Предыдущий рекордсмен, o4-mini, пыхтел на 6.3%.

Разница не в процентах, а в порядках. Это качественно другой уровень «мышления».

А теперь самое интересное. OpenAI открыто признает, что модель настолько мощная, что ее классифицировали как «высокоспособную» в создании биологического и химического оружия.

Нет, это не значит, что он начнет синтезировать вирусы по вашему запросу. Но компания на всякий случай включила параноидальный режим и встроила несколько предохранителей:

Двойной контроль: Каждый ваш запрос сначала проверяется классификатором на «биологическую» тематику. Если триггер сработал, ответ агента проходит через второй, еще более строгий фильтр, который ищет потенциальные угрозы.
Отключенная память: Это самая мякотка. В обычном ChatGPT есть функция памяти, чтобы он помнил контекст ваших прошлых разговоров. В агенте ее отключили. Официальная причина — риск атак через «инъекцию промпта». Проще говоря, злоумышленник мог бы хитрым запросом заставить агента «вспомнить» и выдать ему конфиденциальные данные из ваших предыдущих сессий.

По факту, OpenAI создала настолько мощный инструмент, что сама боится его полного потенциала и пока выпускает его с «тренировочными колесиками».

Это огромный шаг от «ИИ-помощника» к «ИИ-исполнителю». Разница фундаментальна. Одно дело — получить совет, другое — получить готовый результат.

Пока рано говорить, насколько хорошо это будет работать в реальных, сложных задачах. Ранние версии агентов часто спотыкались о непредсказуемость реального мира. Но, судя по бенчмаркам и уровню предосторожности OpenAI, в этот раз они приготовили что-то действительно серьезное.

Как попробовать: Функция уже раскатывается на всех подписчиков планов ChatGPT Pro, Plus и Team. Чтобы ее активировать, нужно просто выбрать «agent mode» в выпадающем меню инструментов.

P.S. Эту новость и другие мы уже разобрали по косточкам в моем телеграм-канале

А еще там мы выяснили, почему AI-ассистенты часто «ленятся» и как с этим бороться. Подписывайтесь, если вам тоже важна правда, а не красивые заголовки.

В ChatGPT встроили ИИ-агента, который работает за вас. И это немного пугает

Что это за зверь и с чем его едят?

По сути, OpenAI скрестила два своих мощных инструмента:

Список хотелок: что можно поручить новому агенту?

Он реально умнее? Спойлер: да, в разы

Тёмная сторона: почему в OpenAI отключили агенту «память»

Мой вердикт и как это включить