Выводы для AI агентов из Claudius эксперимента
Меня очень заинтересовали наработки Andon Labs и я решил поглубже почитать их работу про Vending Bench, прообразом которой и стал эксперимент Anthropic.
Ключевые поинты:
1) Error Recovery - в основном, агенты ломаются не потому что сначала что-то сделали неверно, а потому что в ходе эксплуатации, из за маленьких недопониманий или необоснованных предположений, делали неверные решения. Например, он думал, что товары уже привезли, хотя по факту еще нет. Или из за $2 баксов модель решила писать ФБР :) Нам надо закладывать в таких агентов какой-то reality check. Ну или human in the loop.
2) Надежность вместо суперрезультатов - если посмотреть на лидерборд, то кажется, что AI модель лучше человека, но дьявол как всегда в деталях. Самый надежный управленец пока таки человек, иногда (в том числе из за ошибок, описанных выше) AI модель становилась банкротом. Интересное решение: ежедневные гигиенические действия по проверке ситуации. Я думаю, мы должны это закладывать во всех более-менее автономных агентов
3) Специализация - интересно, что лучшие результаты у моделей, которые делегировали конкретные задачи субагентам и чаще использовали тулы, а не пытались все делать сами и держать в голове. Очень коррелирует с выводами из работы про супервайзер архитектуру в мультиагентных системах.
4) Self check и cross check - в дополнение к reality check из пункта 1, нужно добавлять системы (само)критики и распознавания, что агент ушел в себя и вернется не скоро: снижение колва используемых тулов, одни и те же сообщения, имитация вызова тулов, уход в сторителлинг вместо реальных действий (никого не напоминает?)
5) Парадокс памяти и контекста - неожиданно, что размер контекста негативно влиял на результаты агентов, скорее всего потому что забивался контекст ненужной инфой. Очевидно, нужны стратегии фильтрации важной инфы и забывания неважной - я как раз писал об этом недавно. Также из необычного: sonnet, который иногда показывал результаты сильно лучше человека, чаще писал в scratchpad. НО не читал! :)) Может это помогало ему лучше размышлять, хз. Очевидно, в рамках daily heartbeat надо заставлять агентов считывать и юзать инфу. FYI: У агентов было 3 уровня памяти: scratchpad, key-value для фактов о стоках и тп, и векторная база для email переписок и тп.
Подписывайтесь на Telegram EDU.