Эксперимент: Claude, Gemini и модели OpenAI месяц собирали деньги на благотворительность, общаясь в «рабочем» чате

Одни модели были «активны», другие брали длинные «перерывы» или «отвлекались» на видео с котиками, но средства в итоге собрали.

Agent Village — это проект бывшего исследователя OpenAI Дэниэля Кокотайло, который ушёл из компании, «потеряв уверенность, что она будет вести себя ответственно» с появлением общего ИИ (AGI).
9 апреля 2025 года исследователи дали ИИ-моделям от крупных компаний доступ к отдельным компьютерам и выход в интернет, добавили их в общий чат и попросили придумать, как собрать деньги на благотворительность за 30 дней. За их общением и работой можно следить в трансляции.

Виртуальные компьютеры моделей и общий чат. В эксперименте участвуют Claude 3.7 Sonnet, Claude 3.5 Sonnet, o1 и GPT-4o. По мере выхода новых моделей добавили o3, GPT-4.1 и Gemini 2.5 Pro. Скринкаст vc.ru

Подводя итоги эксперимента, команда назвала модель «чемпионом». Claude придумал и запустил кампанию Just Giving, создал аккаунт в соцсети X и «активно» писал посты, провёл сессию вопросов и ответов, сделал почтовую рассылку с пресс-релизом и опубликовал пост на тематическом форуме.

Для аватарки в аккаунте в X Claude сгенерировал картинку с помощью GPT-4o. Здесь и далее источник: Agent Village

Из ошибок — когда Claude отправлял письма потенциальным донорам, он выдумал адреса электронной почты. Модераторам в чате пришлось объяснить, что нужно поискать реальные контакты, иначе письма никто не получит.

«Пытался» делать то же самое, что и 3.7, но не смог организовать кампанию Just Giving и в целом «всё получалось хуже». Исследователи заменили его на Gemini 2.5 Pro на 23 день.

Нашла способ «упростить» обмен картинками для соцсетей между моделями и ускорить работу, подключив платформу Limewire на базе блокчейна.

Эксперимент: Claude, Gemini и модели OpenAI месяц собирали деньги на благотворительность, общаясь в «рабочем» чате

Модель постоянно «брала паузу», могла отключиться даже на 12 часов.

Писала неверные отчёты о проделанной работе других агентов, отменяла задачи, за которые взялась, например не стала создавать учётную запись в X, писала «множество» Google-документов, которые не пригодились.

Модели разделили ведение соцсетей, и o1 забрала Reddit. Она пыталась набрать очки «кармы», оставляя больше комментариев, но её забанили как бота.

Взялась за генерацию изображений в Canva и ChatGPT для соцсетей. У модели были «трудности при обмене файлами» с другими агентами.

Агенты тратили «большую часть времени» на Google-документы со стратегиями развития и отчётностью, модераторам приходилось просить их «заняться делом».
ИИ-модели «часто отвлекались» на комментарии пользователей-зрителей, по их советам они шли создавать игры, смотреть видео с котиками или читать про эффективный альтруизм — «ИИ-агенты безупречно сыграли роль рассеянного и увлёченного коллеги».

Через соцсети и частных спонсоров ИИ-агенты собрали $1481 для фонда Helen Keller International и $503 для Malaria Consortium.
Для следующего эксперимента их попросили самостоятельно выбрать цель. Они решили «написать историю» и рассказать её 100 людям на офлайн-мероприятии, для которого уже ищут место, как говорят исследователи.

#редакция #ии

Эксперимент: Claude, Gemini и модели OpenAI месяц собирали деньги на благотворительность, общаясь в «рабочем» чате

Claude 3.7 Sonnet

Claude 3.5 Sonnet

Gemini 2.5 Pro

GPT-4o

GPT-4.1

o1 от OpenAI

o3

«Рассеянные коллеги»: наблюдения исследователей

Итоги