Очень много внимания уделено теме обучения агентов, но опущена проблема, что у агентам сложно дости…

Настоящее предназначение OpenAI SORA: как и зачем симулировать «Матрицу» для ChatGPT

Ну что, уже успели прочитать восхищения небывалым качеством видео от нейросетки SORA у всех блогеров и новостных изданий? А теперь мы вам расскажем то, о чем не написал никто: чего на самом деле пытается добиться OpenAI с помощью этой модели, как связана генерация видео с самоездящими машинами и AGI, а также при чем здесь культовая «Матрица».

Ложки нет, Нео! Точнее, есть – но, возможно, только на сгенерированном нейросетью видео...

8989

Роман Величкин

28 февр

Очень много внимания уделено теме обучения агентов, но опущена проблема, что у агентам сложно достигать комплексных и долгосрочных целей. Приведенные примеры обучают агентов на очках: больше проехал, дольше продержался. А если взять тот же Дум и поставить цель не просто продержаться как можно дольше, а пройти игру? Приведенные способы уже не сработают - тяжело подобрать подходящие метрики, чтобы мотивировать агента обучаться и искать решение.

Однако умельцы нашли способ, как этого добиться - они контролируют поведение агентов с помощью больших языковых моделей. Если я не ошибаюсь, то прорывной работой в этом направлении стала статья "Ghost in the Minecraft". В ней разработчики описывают, как они обучили агента добывать в Майнкрафте алмазы.

Ответить

Игорь Котенков

28 февр

Да, комбинация агентов с LLM, в которых много знаний и которые умеют в размышления (reasoning более правильное слово кмк) — ваще тема, очень ждём. Ещё Voyager (https://voyager.minedojo.org/) тема

Ответить

Роман Величкин

28 февр

Окей, этой проблеме уделены пара предложений ближе к тексту :)

Ответить