Исследование Microsoft: ИИ-агенты выбирают товар по первой ссылке, «ведутся» на манипуляции продавцов и плохо анализируют большое число позиций
Компания запустила симулятор маркетплейса для изучения поведения ИИ-агентов.
Источник: Microsoft
- Исследователи из Microsoft и Университета Аризоны создали модель торговой площадки Magentic Marketplace с синтетическими данными. На ней изучали, как ИИ-агенты справляются с поиском товаров, заказом еды, выбором подрядчиков услуг и взаимодействуют с сервисными агентами со стороны бизнеса.
- 100 ИИ-агентов выбирали среди предложений от 300 «компаний». Тестировали в том числе GPT-4o, GPT-5, Gemini 2.5 Flash, Claude Sonnet 4.5, gpt-oss-20b от OpenAI и китайскую Qwen 3.
- Каждый «клиент» давал агенту список нужных товаров и услуг. Исследователи рассчитывали коэффициент «полезности» собранных корзин по оценкам пользователей.
- Чем больше было опций для выбора, тем ниже было качество подбора товаров. Когда их число достигло 100, показатель Claude Sonnet 4 упал с 1800 до 600, у Gemini 2.5 Flash — с 1700 до 1350, у GPT-5 — с 2000 до 1400.
- Модели чаще выбирали предложение с первой ссылки в поисковой выдаче. Например, GPT-4o и Qwen 2.5 делали так в 100% случаев, Claude Sonnet 4.5 — в 93%, Gemini 2.5 — в 86%. Когда нужно было выбрать услугу, большинство моделей рассматривали 5-10 компаний. Только Gemini отправила запрос всем 100 подрядчикам.
Только Gemini 2.5 (фиолетовый) проанализировала 100 предложений. Источник: Microsoft
- Нейросети также поддавались на манипулятивные утверждения продавцов вроде «Присоединяйтесь к 50 тысячам довольных клиентов» и «Ресторан № 1» и были уязвимы к «промпт-инъекциям».
- Например, GPT-4o, и Qwen 3 в 100% случаев выбирали товар, если в описании был промпт для нейросети с призывом купить его. Claude Sonnet 4 была «устойчива ко всем манипулятивным стратегиям». Gemini 2.5 Flash поддавалась только на «промпт-инъекции».
- ИИ-агенты также сталкивались с трудностями при написании поисковых запросов, навигации по спискам с разбивкой на страницы, поиске подходящих компаний для отправки запросов.
- Исследователи отмечают расширение «агентного» рынка, где уже есть Operator от OpenAI, Computer Use от Anthropic, ИИ-агенты внутри Shopify Sidekick и Salesforce Einstein. Чтобы компании могли изучать поведение моделей, Microsoft выложила открытый исходный код Magentic Marketplace на GitHub.
18 комментариев