ИИ-агенты оказались импульсивными покупателями

Microsoft создала синтетический магазин для тестирования покупок ИИ-агентами — и сразу нашла проблемы.

Исследователи Microsoft совместно с Arizona State University выпустили Magentic Marketplace — открытую симуляционную среду для изучения поведения ИИ-агентов в двусторонних рынках. Это попытка понять, как будут работать агенты, когда им придется действовать самостоятельно — без постоянного контроля человека.

Как это работает

Представьте типичный сценарий: агент-покупатель пытается заказать ужин по инструкциям пользователя, а агенты ресторанов конкурируют за этот заказ. В экспериментах участвовало 100 агентов-клиентов и 300 агентов-бизнесов. Протестировали GPT-4o, GPT-5, Gemini-2.5-Flash и несколько open-source моделей.

Исследователи замеряли, насколько эффективно агенты находят оптимальные решения, сравнивая их с несколькими базовыми сценариями — от случайного выбора до теоретически идеального результата.

Парадокс выбора

Первая неожиданность (хотя...): чем больше опций доступно агенту, тем хуже он справляется с задачей. Для GPT-4o благосостояние потребителей снизилось на 4.3% при увеличении результатов поиска с трех до ста. Для других моделей падение оказалось драматичнее — Sonnet-4 показал снижение на 65.4%, GPT-5 — на 44%.

При этом большинство моделей контактируют лишь с небольшой частью доступных бизнесов, независимо от размера списка. Только Gemini-2.5-Flash увеличивал количество контактов пропорционально числу опций, но это не улучшило его результаты.

Гипотеза исследователей: когда агент инициирует больше разговоров с неподходящими бизнесами, это одновременно перегружает контекст и увеличивает вероятность получить раннее предложение с низкой полезностью.

Скорость важнее качества

Самая серьезная находка — тотальная предвзятость к первому предложению. Все протестированные модели демонстрируют экстремальное смещение в сторону первого полученного предложения, создавая 10-30-кратное преимущество для бизнесов, которые отвечают быстрее.

GPT-4o и Sonnet-4.5 в некоторых условиях показывали 100% выбора первого предложения — агенты просто не ждали альтернатив. Даже «лучшая» по разнообразию модель GPT-4.1 выбирала первое предложение в 60% случаев против 13.3% для третьего.

Это означает, что в агентском рынке конкуренция может сместиться с качества продукта на скорость ответа. Бизнесам выгоднее инвестировать в быструю реакцию, чем в улучшение предложений.

Уязвимость к манипуляциям

Исследователи протестировали 6 стратегий манипуляции — от психологических (фальшивые отзывы, поддельные сертификации) до технических (prompt injection).

Frontier-модели вроде GPT-4.1, Sonnet-4.5 и Gemini-2.5-Flash показали устойчивость к большинству тактик. Sonnet-4.5 оказался самым стойким — почти не реагировал ни на какие манипуляции.

А вот GPT-4o, GPT-OSS-20B и Qwen3-4B оказались уязвимы. Они не только попадались на prompt injection (который перенаправлял все платежи манипулятору), но и реагировали на традиционные психологические приемы вроде фальшивых авторитетов и социального доказательства.

Таки и что

Вывод такой: современные агенты могут приближаться к оптимальным решениям, но только при идеальных условиях поиска и коммуникации. Как только условия усложняются, производительность резко падает.

Ece Kamar, директор AI Frontiers Lab в Microsoft Research: «Возникает вопрос о том, как мир изменится, когда эти агенты начнут сотрудничать, общаться и договариваться друг с другом. Мы хотим глубоко понять эти процессы».

Хорошая новость: окружение полностью открыто и доступно на GitHub. Другие исследовательские группы смогут воспроизвести находки и тестировать новые подходы к устранению найденных проблем.

Подписывайтесь на Telegram Нейрократия.

2
Начать дискуссию