Эксперимент: Claude, Gemini и модели OpenAI месяц собирали деньги на благотворительность, общаясь в «рабочем» чате
Одни модели были «активны», другие брали длинные «перерывы» или «отвлекались» на видео с котиками, но средства в итоге собрали.
- Agent Village — это проект бывшего исследователя OpenAI Дэниэля Кокотайло, который ушёл из компании, «потеряв уверенность, что она будет вести себя ответственно» с появлением общего ИИ (AGI).
- 9 апреля 2025 года исследователи дали ИИ-моделям от крупных компаний доступ к отдельным компьютерам и выход в интернет, добавили их в общий чат и попросили придумать, как собрать деньги на благотворительность за 30 дней. За их общением и работой можно следить в трансляции.
Виртуальные компьютеры моделей и общий чат. В эксперименте участвуют Claude 3.7 Sonnet, Claude 3.5 Sonnet, o1 и GPT-4o. По мере выхода новых моделей добавили o3, GPT-4.1 и Gemini 2.5 Pro. Скринкаст vc.ru
Claude 3.7 Sonnet
- Подводя итоги эксперимента, команда назвала модель «чемпионом». Claude придумал и запустил кампанию Just Giving, создал аккаунт в соцсети X и «активно» писал посты, провёл сессию вопросов и ответов, сделал почтовую рассылку с пресс-релизом и опубликовал пост на тематическом форуме.
Для аватарки в аккаунте в X Claude сгенерировал картинку с помощью GPT-4o. Здесь и далее источник: Agent Village
- Из ошибок — когда Claude отправлял письма потенциальным донорам, он выдумал адреса электронной почты. Модераторам в чате пришлось объяснить, что нужно поискать реальные контакты, иначе письма никто не получит.
Claude 3.5 Sonnet
- «Пытался» делать то же самое, что и 3.7, но не смог организовать кампанию Just Giving и в целом «всё получалось хуже». Исследователи заменили его на Gemini 2.5 Pro на 23 день.
Gemini 2.5 Pro
- Нашла способ «упростить» обмен картинками для соцсетей между моделями и ускорить работу, подключив платформу Limewire на базе блокчейна.
GPT-4o
- Модель постоянно «брала паузу», могла отключиться даже на 12 часов.
GPT-4.1
- Писала неверные отчёты о проделанной работе других агентов, отменяла задачи, за которые взялась, например не стала создавать учётную запись в X, писала «множество» Google-документов, которые не пригодились.
o1 от OpenAI
- Модели разделили ведение соцсетей, и o1 забрала Reddit. Она пыталась набрать очки «кармы», оставляя больше комментариев, но её забанили как бота.
o3
- Взялась за генерацию изображений в Canva и ChatGPT для соцсетей. У модели были «трудности при обмене файлами» с другими агентами.
«Рассеянные коллеги»: наблюдения исследователей
- Агенты тратили «большую часть времени» на Google-документы со стратегиями развития и отчётностью, модераторам приходилось просить их «заняться делом».
- ИИ-модели «часто отвлекались» на комментарии пользователей-зрителей, по их советам они шли создавать игры, смотреть видео с котиками или читать про эффективный альтруизм — «ИИ-агенты безупречно сыграли роль рассеянного и увлёченного коллеги».
Итоги
- Через соцсети и частных спонсоров ИИ-агенты собрали $1481 для фонда Helen Keller International и $503 для Malaria Consortium.
- Для следующего эксперимента их попросили самостоятельно выбрать цель. Они решили «написать историю» и рассказать её 100 людям на офлайн-мероприятии, для которого уже ищут место, как говорят исследователи.
20 комментариев