Больше данных — меньше смысла: почему сооснователь OpenAI отказывается выпускать новые модели
Илья Суцкевер, будучи одним из ключевых архитекторов OpenAI и создателей GPT, годами доказывал, что увеличение вычислительных мощностей — это главный ключ к успеху. Но недавно он совершил неожиданный разворот: основал собственную компанию Safe Superintelligence (SSI) и открыто заявил, что прежняя логика развития ИИ зашла в тупик. Это интервью — манифест человека, который решился пересмотреть фундамент, на котором строил свою карьеру. Ниже самое главное из этого разговора.
👉 Смотрите оригинальное интервью Ильи Суцкевера с профессиональным переводом на русский и дикторской озвучкой.
Когда лучше не значит больше
В период с 2012 по 2020 год исследователи жили в парадигме одной мощной истины: добавьте больше данных и больше вычислительной мощности — и нейросеть станет умнее. Это время казалось эпохой бесконечных побед, когда путь к прогрессу был прямым и понятным. Однако в последние пять лет стало очевидно, что некоторый кризис настиг и сферу ИИ.
Эпоха масштабирования закончилась. Мы возвращаемся в эпоху исследований и открытий.
Таков холодный анализ ученого, который наблюдал эволюцию технологий изнутри, начиная с революционного AlexNet в 2012 году, перевернувшего наше представление о компьютерном зрении. Суцкевер был частью той революции и первым понял силу масштабирования. Теперь же, спустя два десятилетия, он первым видит, что старые методы начинают работать против нас.
💡 Глубоко интересуетесь ИИ? Подпишитесь на канал, где я разбираю идеи мировых AI-лидеров и делюсь наблюдениями, как ИИ меняет бизнес, работу и жизнь. Подробнее
Парадокс интеллекта: гений в физике, профан в логике
Современные большие языковые модели способны сдать сложнейший экзамен по квантовой физике, решить дифференциальное уравнение или написать рабочий код. Но задайте им элементарный вопрос на бытовую логику или причинно-следственную связь — они могут запутаться там, где не ошибется ребенок. Это не программная ошибка, а фундаментальное противоречие в самом методе обучения.
Модели блестяще сдают тесты, но ошибаются в простом. Это значит, что они учатся совсем не так, как человек.
Причина в том, что модель не понимает принципы мироустройства, а лишь запоминает колоссальное количество закономерностей и корреляций из загруженных в нее данных. Она может виртуозно воспроизвести ответ, похожий на то, что видела раньше, но оказывается беспомощной, если нужно применить знание в принципиально новой ситуации.
Эпизоды и принципы: почему учить ИИ надо иначе
Ключевое отличие человеческого интеллекта от искусственного в природе понимания. Человек учится через принципы: единожды осознав суть гравитации, может предсказать падение любого предмета, даже если никогда не видел именно этот камень или яблоко. То есть не видя всех падающих предметов в мире, понял сам закон.
Нейросети же требуются миллионы примеров, чтобы научиться всего лишь «обобщать». И даже после этого она не понимает сути явления, а лишь статистически угадывает поведение.
Бесконечное добавление данных больше не решает эту проблему. Нужен не новый масштаб, а новый механизм — алгоритм обучения, который будет развивать понимание, а не просто накапливать статистику. Суцкевер убежден, что следующий прорыв придет именно отсюда, и ключом к нему станет обучение с подкреплением.
Когда опыт важнее теории: ставка на Reinforcement Learning
Обучение с подкреплением (Reinforcement Learning или RL) предлагает принципиально иной подход. Вместо того чтобы пассивно поглощать гигабайты текста, модель начинает действовать. Она взаимодействует со средой, получает обратную связь и учится на своих ошибках — точно так же, как учится человек или любое живое существо, адаптирующееся к миру. Вместо установки «вот тебе миллиард текстов, запомни их», RL говорит: «вот задача, пробуй её решить; за успех получишь награду, за ошибку — штраф».
Благодаря этому модель начинает вырабатывать стратегию, а не просто копировать шаблоны. Она учится думать. Индустрия уже видит первые плоды этого подхода: например, модель O1 от OpenAI, которая тратит время на внутреннее «рассуждение» перед ответом, — это прямой результат применения RL.
Мы в SSI делаем ставку на RL как на главный инструмент перехода от эпохи масштабирования к эпохе открытий. Это стержень новой стратегии.
Скрытая угроза: чего мы хотим на самом деле?
Однако в методе обучения с подкреплением есть свой подводный камень. В его основе лежит так называемая «функция ценности» — критерий, по которому система оценивает, хорошо ли она справилась с задачей. Правильная функция ценности научит модель полезному поведению. Ошибочная — заставит преследовать неверные, а порой и опасные цели. И то вопрос глобальной безопасности.
Неправильная функция ценности может привести к тому, что сверхразумная система будет эффективно достигать целей, которые нам вредят.
Это и есть знаменитая проблема выравнивания (alignment). Если система станет умнее нас, но ее ценности будут отличаться от наших, результат может быть катастрофическим. Именно на решении этой задачи фокусируется SSI: чем мощнее интеллект, тем критичнее, чтобы его движение было в правильную сторону.
Тишина вместо хайпа: отказ от ИИ-гонки
Понимая масштаб этих вызовов, Суцкевер сделал радикальный выбор. В отличие от OpenAI или Google, которые живут в ритме квартальных релизов и постоянно выпускают новые версии моделей, SSI выбрала стратегию «тишины».
Мы выбрали прямой путь к суперинтеллекту, отказавшись от промежуточных продуктов. Не будем выпускать новую модель каждый месяц, чтобы развлечь публику, а сосредоточимся на решении фундаментальных научных проблем.
Значит, никаких красивых демо для инвесторов, никаких громких PR-поводов, никаких промежуточных побед. Только чистая наука. Это рискованная ставка, ведь на фоне конкурентов, которые выглядят быстрее и технологичнее, SSI может казаться скучной лабораторией, где ничего не происходит. Но Суцкевер уверен, что его команда из примерно 50 человек обладает достаточными ресурсами и, главное, финансовой независимостью, чтобы позволить себе роскошь работать на результат, а не на заголовки новостей.
Про истину и эстетику
Как выбрать верное направление, когда идей больше, чем времени, а будущее туманно? У Суцкевера есть неожиданный критерий: он ищет красоту.
Я выбираю идеи, ориентируясь на их красоту, а не на популярность. Если идея красива, это часто верный признак того, что она истинна.
Это звучит философски, но за этим логика истории науки. Архитектура AlexNet была красива своим элегантным решением через сверточные сети. Технология CUDA была красива тем, что превратила видеокарту в универсальный мозг компьютера. А трансформеры были красивы благодаря изящному механизму самопонимания (self-attention).
Красивые идеи, как правило, отражают глубокие принципы мироздания. Природа гармонична, и когда теория резонирует с этой гармонией, то чаще всего оказывается верной. В этом Суцкевер наследует подход великих физиков, таких как Эйнштейн или Фейнман, которые тоже верили в эстетику истины.
Не замена, а симбиоз
Вопреки популярным страхам, Суцкевер не верит, что ИИ станет могильщиком для человечества. Он видит в нем инструмент расширения наших возможностей. Будущее не в том, что ИИ заменит людей. Скорее, человек и ИИ будут дополнять друг друга, создавая союз, который намного мощнее каждого из них по отдельности.
Искусственный интеллект поможет решать задачи, к которым мы не знали, как подступиться. Раздвинет границы мышления и даст новые инструменты для творчества. Но этот оптимистичный сценарий сработает только при одном условии: если ИИ будет выровнен с нашими ценностями. Если его функция ценности будет правильной. В противном случае расширение возможностей превратится в конфликт интересов. Так что вопрос не в том, насколько силен будет ИИ, а в том, куда он будет направлен.
Смотрите другие видеоинтервью на канале «AI из первых уст». Подпишитесь на телеграм-канал «Кеды профессора», чтобы быть в курсе событий мирового ИИ.