Андрей Карпатый: «ИИ нужно учиться не только на примерах, но и на опыте»
Андрей Карпатый, бывший ведущий исследователь Tesla и OpenAI, усомнился в том, что сегодняшнего подхода к обучению больших языковых моделей достаточно для настоящего прогресса.
Он критикует метод обучения с подкреплением — когда модель получает условное «вознаграждение» за удачный ответ и «штраф» за неудачный. Такой подход, по его словам, хорош в задачах с чётким правильным решением: например, в шахматах. Но когда дело касается сложных рассуждений, он оказывается слишком грубым инструментом.
По словам Карпатого, такие модели чаще всего не решают задачу, а лишь подбирают ответы, которые нравятся людям и выглядят убедительно. То есть учатся не мыслить, а угадывать, какой ответ оценят выше. В итоге система может казаться умной, но не всегда понимает суть.
Он отмечает: да, обучение с подкреплением лучше, чем простое копирование человеческих ответов, и оно будет применяться ещё долго. Но настоящего прорыва оно не принесёт — нужны новые механизмы обучения, ближе к тому, как учатся люди.
ИИ как «ученик в реальной жизни»
Карпатый считает, что перспективным направлением может стать обучение в интерактивных средах. Это цифровые «песочницы», где модели пробуют действовать, получают обратную связь и видят последствия своих решений. Такой опыт ближе к человеческому: мы учимся не только слушая объяснения, но и пробуя сами.
Он сравнивает это с тем, что происходит во сне: мозг пересматривает прожитое за день и закрепляет знания. Аналогично, ИИ может учиться не только на текстах, но и на собственных действиях.
Идея Карпатого перекликается с работами исследователей из DeepMind Ричарда Саттона и Дэвида Сильвера. Они тоже считают, что следующий шаг в развитии ИИ невозможен без «опыта» — самостоятельных действий и обучения через последствия, а не только через копирование человеческих решений.
Как вы считаете, что произойдет, если дать ИИ доступ к реальному жизненному опыту?