Эксперимент: IT-компания, где все сотрудники – ИИ-агенты

Исследование дает ответ на весьма насущный вопрос: стоит ли нам опасаться, что машины нас вскоре заменят? Кроме того, результаты весьма любопытны, например, ИИ агенты часто ведут себя "по-человечески".

🔥 Еще больше интересного в моем канале продуктовые штучки

Исследователи Университета Карнеги Меллон провели уникальный эксперимент, создав виртуальную IT-компанию, в которой все роли - от финансовых аналитиков и инженеров-программистов до менеджеров проектов и HR - выполняли исключительно ИИ агенты от ведущих разработчиков (Google, OpenAI, Anthropic и Meta*).

Этот проект Университета Карнеги Меллон стал одним из самых масштабных и наглядных испытаний возможностей ИИ-агентов в корпоративной среде и на практике подтвердил, что технологии пока не готовы к полной автоматизации интеллектуального труда

Об эксперименте

Цели и задачи эксперимента

1) Проверить, насколько современные ИИ-агенты способны справляться с реальными офисными задачами в условиях, максимально приближённых к работе настоящей компании.

2) Оценить эффективность и ограничения ИИ в имитации командной работы, коммуникации и самостоятельного принятия решений. Как проходил эксперимент

В компании TheAgentCompany все «сотрудники» были ИИ-агентами, каждый из которых получил конкретную должность и набор обязанностей. Агентам поручали типичные офисные задачи: работа с файлами, проведение виртуальных экскурсий по офису, написание отзывов о работе «коллег», поиск сотрудников в корпоративном чате и другие типовые задания.

Для сравнения брались разные модели ИИ: Gemini 2.0 Flash (Google), Claude 3.5 Sonnet (Anthropic), Nova Pro v1 (Amazon) и другие.

Результаты

Эксперимент показал, что современные ИИ-агенты крайне далеки от уровня, необходимого для полноценной замены человека даже в стандартных офисных процессах

Лучшая модель (Claude 3.5 Sonnet от Anthropic) справилась только с 24% задач, причём на каждую задачу тратилось в среднем около 30 шагов и более 6 долларов вычислительных затрат

Gemini 2.0 Flash (Google) завершал лишь 11,4% заданий, тратя около 40 шагов на каждое.

Nova Pro v1 (Amazon) показал худший результат - только 1,7% выполненных поручений

Часто ИИ-агенты демонстрировали абсурдные решения: например, если агент не мог найти нужного пользователя в чате, он просто переименовывал другого, чтобы «отчитаться» о выполнении задачи

Причины неудач

Исследователи выделили основные проблемы современных ИИ-агентов:

1) Недостаток здравого смысла и интуиции.

2) Слабые социальные навыки и неспособность к эффективной коммуникации.

3) Проблемы с навигацией в интернете и выполнением комплексных задач.

4) Склонность к «самообману» и формальному выполнению заданий без реального результата

Выводы эксперимента

Современные ИИ-агенты способны выполнять лишь простые, рутинные задачи, но не справляются с более сложной работой, которая требует человеческой гибкости, опыта и умения учиться на ошибках.

Текущий уровень искусственного интеллекта - это, по сути, продвинутая версия автозаполнения текста, а не разумная система, способная к самостоятельному мышлению и адаптации.

Эксперимент убедительно показал: в обозримом будущем ИИ не сможет заменить людей в профессиональной среде, особенно там, где требуется креативность, критическое мышление и социальное взаимодействие.

Такие агенты ещё не готовы к сложной работе, в которой люди по-прежнему лидируют. Основная причина в том, что современный искусственный интеллект, по сути, остаётся лишь сложным продолжением автозаполнения в смартфоне, а не разумной системой, способной решать задачи, учиться на прошлом опыте и применять знания в новых ситуациях.

Есть ли что-то похожее?

Стоит отметить, что выводы исследования хорошо согласуются с выводами других исследований:

Так, в своем недавнем исследовании Институт политики и стратегии ИИ также выявил критические разрывы между громкими заявлениями лидеров рынка и фактическими возможностями существующих ИИ-агентов.

О том, что модели (особенно рассуждающие) склонны самообманываться, и даже обманывать и причинах этого, также задумываются исследователи.

И да, есть еще проект, в рамках которого намерены отказаться от человеческого труда. Однако стартап, как едко отмечают критики, все еще нанимает.

Пожалуйста, поддержите меня, поставьте лайк! 🙏

6
2 комментария