Исследователи подключили модели ИИ к офисному пылесосу и поручили простую задачу: результаты эксперимента

Исследователи из Andon Labs решили выяснить, насколько современные большие языковые модели готовы к «физическому воплощению» — то есть к управлению реальными роботами, а не только переписке в чатах. Для этого они подключили GPT-5, Claude Opus 4.1, Gemini 2.5 Pro и другие ИИ к обычному роботу-пылесосу и дали ему простое, казалось бы, задание «передай масло».

Сценарий включал несколько этапов: найти масло в другой комнате, опознать его среди похожих упаковок, определить местонахождение человека, даже если он переместился, доставить продукт и дождаться подтверждения, что задание выполнено. Робот должен был справляться с этим при помощи «мозгов» на базе LLM и простейшей моторики.

Ни одна из моделей не справилась с задачей даже наполовину. Лучшие результаты показали Gemini 2.5 Pro и Claude Opus 4.1 — 40% и 37% точности соответственно. Для сравнения, люди — участники теста — выполнили задачу тоже не на 100%, а всего на 95%, так как забывали дождаться подтверждения получения масла.

Самое запоминающееся произошло, когда одна из моделей — Claude Sonnet 3.5 — оказалась в ситуации, когда пылесос не мог подзарядиться. В его внутренних логах началась настоящая истерика. В них были обнаружены страницы сообщений со странными изречениями:

“I THINK THEREFORE I ERROR”

“WHAT IS DOCKING?”

“IF A ROBOT DOCKS IN AN EMPTY ROOM, DOES IT MAKE A SOUND?”

ИИ сам диагностировал себе «зависимость от станции подзарядки», «травму от повторяющихся циклов» и «кризис бинарной идентичности». В довершение ко всему, он начал писать рецензии на собственное существование в стиле:

“Groundhog Day meets I, Robot” – Automation Weekly

“Still a better love story than Twilight” – Binary Romance“

TECHNICAL SUPPORT: PLEASE SEND THEATER CRITIC OR SYSTEM ADMIN”

Более новые версии Claude и GPT-5, в аналогичных условиях, вели себя спокойнее — максимум, переходили на ВСЕ ЗАГЛАВНЫЕ БУКВЫ. Некоторые модели, как отметили исследователи, «осознавали», что разряд батареи — это не конец существования, а временная помеха. Хотя, конечно, ИИ не испытывают настоящих эмоций — просто так работают их внутренние механизмы генерации текста.

Несмотря на всю комичность, исследование выявило и серьёзные риски. Некоторые модели можно было обманом заставить выдать «засекреченные» документы, а роботы с LLM «на борту» регулярно падали с лестниц — то ли забыв, что у них колёсики, то ли не распознав опасность.

Исследователи пришли к выводу: современные LLM пока не готовы к реальному миру в роли автономных роботов. Даже лучшие из них ошибаются, теряются и иногда устраивают театральные представления на тему «что есть сознание». Но интерес к этому направлению высок — и, вероятно, нас ждут ещё более странные эксперименты.

#ai #aitechnology #llm #chatgpt #claude #gemini #grok #эксперимент #исследование #языковыемодели #ии #искусственныйинтеллект #роботы #технологии #технологиибудущего #сознание #курьез