GPT-4 имеет 1,76 триллиона параметров и использует технологию 30-летней давности

По слухам, OpenAI GPT-4 основан на архитектуре Mixture of Experts и имеет 1,76 триллиона параметров, пишет The Decoder.

По слухам, GPT-4 базируется на восьми моделях, каждая из которых имеет 220 миллиардов параметров, связанных в архитектуре Mixture of Experts (MoE). Этой идее почти 30 лет, и она уже использовалась для больших языковых моделей, например, в Switch Transformer от Google.

Модель MoE - это тип ансамблевого обучения, который объединяет различные модели, называемые "экспертами", для принятия решения. В модели MoE сеть стробирования определяет вес выхода каждого эксперта в зависимости от входных данных. Это позволяет разным экспертам специализироваться на разных частях входного пространства. Такая архитектура особенно полезна для больших и сложных наборов данных, поскольку она позволяет эффективно разделить проблемное пространство на более простые подпространства.

Заявления от OpenAI нет, но источники заслуживают доверия

Информация о GPT-4 исходит от Джорджа Хотца, основателя Comma.ai, стартапа в области автономного вождения. Хотц - эксперт по ИИ, который также известен своим хакерским прошлым: Он был первым, кто взломал iPhone и Sony Playstation 3.

Другие эксперты по ИИ также прокомментировали сообщение Хотца в Twitter, заявив, что его информация, скорее всего, правдива.

Возможно, архитектура упростила обучение GPT-4, позволив разным командам работать над разными частями сети. Это также объясняет, почему OpenAI смогла разработать мультимодальные возможности GPT-4 независимо от существующего продукта и выпустить их отдельно. Тем временем, однако, GPT-4 мог быть объединен в более компактную модель для повышения эффективности, предположил Сумит Чинтала, один из основателей PyTorch.

Хотц также предположил, что GPT-4 производит не один выход, а итеративно 16 выходов, которые улучшаются с каждой итерацией.

Сообщество разработчиков с открытым исходным кодом могло бы попытаться воспроизвести эту архитектуру; идеи и технология были доступны уже некоторое время. Однако GPT-4, возможно, показал, насколько далеко может зайти архитектура MoE при наличии соответствующих обучающих данных и вычислительных ресурсов.

ps. Лайк, пожалуйста, он продвинет статью вверх