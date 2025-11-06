Компания запустила симулятор маркетплейса для изучения поведения ИИ-агентов.Источник: MicrosoftИсследователи из Microsoft и Университета Аризоны создали модель торговой площадки Magentic Marketplace с синтетическими данными. На ней изучали, как ИИ-агенты справляются с поиском товаров, заказом еды, выбором подрядчиков услуг и взаимодействуют с сервисными агентами со стороны бизнеса.100 ИИ-агентов выбирали среди предложений от 300 «компаний». Тестировали в том числе GPT-4o, GPT-5, Gemini 2.5 Flash, Claude Sonnet 4.5, gpt-oss-20b от OpenAI и китайскую Qwen 3.Каждый «клиент» давал агенту список нужных товаров и услуг. Исследователи рассчитывали коэффициент «полезности» собранных корзин по оценкам пользователей.Чем больше было опций для выбора, тем ниже было качество подбора товаров. Когда их число достигло 100, показатель Claude Sonnet 4 упал с 1800 до 600, у Gemini 2.5 Flash — с 1700 до 1350, у GPT-5 — с 2000 до 1400.Модели чаще выбирали предложение с первой ссылки в поисковой выдаче. Например, GPT-4o и Qwen 2.5 делали так в 100% случаев, Claude Sonnet 4.5 — в 93%, Gemini 2.5 — в 86%. Когда нужно было выбрать услугу, большинство моделей рассматривали 5-10 компаний. Только Gemini отправила запрос всем 100 подрядчикам.Только Gemini 2.5 (фиолетовый) проанализировала 100 предложений. Источник: MicrosoftНейросети также поддавались на манипулятивные утверждения продавцов вроде «Присоединяйтесь к 50 тысячам довольных клиентов» и «Ресторан № 1» и были уязвимы к «промпт-инъекциям».Например, GPT-4o, и Qwen 3 в 100% случаев выбирали товар, если в описании был промпт для нейросети с призывом купить его. Claude Sonnet 4 была «устойчива ко всем манипулятивным стратегиям». Gemini 2.5 Flash поддавалась только на «промпт-инъекции».ИИ-агенты также сталкивались с трудностями при написании поисковых запросов, навигации по спискам с разбивкой на страницы, поиске подходящих компаний для отправки запросов.Исследователи отмечают расширение «агентного» рынка, где уже есть Operator от OpenAI, Computer Use от Anthropic, ИИ-агенты внутри Shopify Sidekick и Salesforce Einstein. Чтобы компании могли изучать поведение моделей, Microsoft выложила открытый исходный код Magentic Marketplace на GitHub.#новости