Исследование показало, что ИИ‑агенты пока не способны работать на уровне фрилансеров

В последние месяцы идея автономных ИИ‑агентов — таких, которые могут самостоятельно выполнять сложные задачи без постоянного участия человека — стала одной из самых активно обсуждаемых тем в индустрии. Разработчики демонстрируют ботов, способных бронировать отели, анализировать документы и даже якобы «зарабатывать деньги». Но в реальных условиях всё работает не так гладко.

Исследование показало, что ИИ‑агенты пока не способны работать на уровне фрилансеров

Исследование, проведённое организацией Center for AI Safety совместно с компанией Scale AI, показало, что ИИ‑агенты пока не справляются с задачами на уровне обычного фрилансера. Эксперимент охватывал 193 задания — от графического дизайна и редактирования видео до сбора информации. Участвовавшие в нём модели могли использовать популярные платформы для удалённой работы вроде Fiverr и Upwork. Результат оказался скромным: агенты выполнили лишь 2,9% от общего числа задач.

Даже лучшие из них — включая версии GPT‑4 с доступом к внешним инструментам — не заработали больше $1800 из возможных почти $144000. Многие задания так и не были завершены, потому что агенты не понимали инструкций, не справлялись с многошаговыми действиями или просто теряли контекст.

По мнению исследователей, это связано с несколькими ограничениями текущих ИИ‑систем. Во-первых, они не обладают долговременной памятью: каждый новый этап задачи воспринимается как начало с нуля. Во-вторых, такие агенты не обучаются в процессе работы — они не улучшают свои навыки после ошибок. И в‑третьих, они не адаптируются к изменениям условий, как это делает человек, даже с минимальным опытом.

Авторы подчёркивают, что исследование не отрицает возможности развития ИИ‑агентов в будущем. Оно лишь указывает, что на данном этапе модели, даже самые передовые, не могут полноценно заменять специалистов на фриланс‑рынке. Особенно в задачах, где требуется не просто автоматизация, а понимание задачи, координация и способность действовать в условиях неопределённости.

Этот результат контрастирует с медийным представлением о скором приходе «универсальных» агентов, способных брать на себя всю цифровую рутину. В реальности большинство успешных кейсов использования ИИ — это точечные инструменты в рамках понятных, ограниченных сценариев. Как только модель сталкивается с задачей, требующей инициативы, гибкости или межконтекстного понимания, эффективность резко падает.

Пока ИИ остаётся инструментом, а не работником. И ожидания, что он сможет взять на себя всю удалённую работу, оказались преждевременными.

Как вы думаете, как скоро ИИ-агенты проникнут на биржи фриланса?

1
3 комментария