Amazon сделал своего агента ИИ. Вопрос: что такое «агенты ИИ»?

Amazon сделал своего агента ИИ. Вопрос: что такое «агенты ИИ»?

Кажется, что нейросети взялись делать все крупные компании. Amazon не остался в стороне — он выпустил Nova Act. По собственному описанию разработчика, это продвинутая ИИ-модель, на основе которой можно создавать умные агенты для выполнения разного рода задач в браузерах. Другими словами, это маленькая нейросеть, которая будет действовать в рамках браузера — например, автоматизировать отправку электронных писем или рассылать оповещения.

Сам Amazon называет свое детище «агентом искусственного интеллекта», однако здесь сразу возникают сложности в определении. Что такое «агент ИИ»? Такое ощущение, что разные компании считают агентами разные вещи, и мы получаем нового слона в темной комнате — ту концепцию, когда люди ощупывают разные части слона, и у каждого есть свое мнение о том, что этот слон из себя представляет.

Слон в темной комнате

В широком смысле, агент искусственного интеллекта — это модель, которая может брать на себя некоторые человеческие задачи; условно — покупка продуктов. Агенту не нужна постоянная супервизия, он сам прекрасно «понимает», что ему делать. Вот только само действие, делегируемое нейросети, становится немножко размытым понятием.

Например, если нейросеть делает то, что ей сказали, то она не становится из-за этого агентом ИИ. Чтобы стать таковой, она должна обладать некоторой свободой воли и умением принимать решения. Большая часть того, что сейчас выпускается под видом «агентов ИИ», — это просто чат-боты и виртуальные ассистенты.

Amazon определяет агента как некую систему, способную выполнять сложные многоступенчатые задания в цифровом или физическом мире. «Наша мечта, — пишет разработчик в пресс-релизе, — создать таких агентов, которые смогут выполнять широкий спектр комплексных задач, таких как организация свадьбы или IT-таски для увеличения продуктивности бизнеса».

Агент браузеров

Nova Act должна стать ответом на агентные нейросети, требующие постоянного контроля со стороны человека или интеграции через API. Новинка выпускается в виде SDK, с помощью которой разработчики могут создавать агентов, способных автоматизировать веб-задачи: рассылку писем, планирование, отправку оповещений.

По словам разработчиков, Nova Act великолепно проявил себя в испытаниях на связанных с браузерами бенчмарках. Например, на бенчмарке ScreenSpot Web Text модель набрала почти идеальный результат — 0,939 пунктов. Этот тест измеряет то, насколько хорошо нейросеть понимает инструкции, данные в текстовом формате на естественном языке. Для примера, Claude 3.7 Sonnet получила 0,900 пунктов, а CUA от OpenAI — 0,883.

Неплохой результат показала Nova Act и при прохождении ScreenSpot Web Icon — этот бенчмарк оценивает, насколько хорошо нейросеть понимает визуальные элементы сайтов, такие как иконки или звездочки рейтинга. Модель набрала 0,879 пунктов.

Правда, на GroundUI Web, бенчмарке, который оценивает понимание нейросетью UI-элементов, Nova Act пока уступает конкурентам.

Amazon сделал своего агента ИИ. Вопрос: что такое «агенты ИИ»?

Nova Act уже используется внутри экосистемы Amazon, интегрируясь с Alexa+ для выполнения заданий от пользователей.

По мнению представителей компании, Nova Act — это первый шаг в создании надежных и умных агентов ИИ, которые будут справляться со сложными задачами, состоящими из нескольких шагов.

И все-таки — является ли Nova Act настоящим агентом искусственного интеллекта? Это станет понятно, только если мы получим четкое определение агентности. Пока же ее можно назвать достаточно сообразительной моделью, способной работой в пределах браузера. Что по-своему тоже неплохо.

1
Начать дискуссию