GPT-4 имеет 1,76 триллиона параметров и использует технологию 30-летней давности

GPT-4 имеет 1,76 триллиона параметров и использует технологию 30-летней давности

По слухам, OpenAI GPT-4 основан на архитектуре Mixture of Experts и имеет 1,76 триллиона параметров, пишет The Decoder.

По слухам, GPT-4 базируется на восьми моделях, каждая из которых имеет 220 миллиардов параметров, связанных в архитектуре Mixture of Experts (MoE). Этой идее почти 30 лет, и она уже использовалась для больших языковых моделей, например, в Switch Transformer от Google.

Модель MoE - это тип ансамблевого обучения, который объединяет различные модели, называемые "экспертами", для принятия решения. В модели MoE сеть стробирования определяет вес выхода каждого эксперта в зависимости от входных данных. Это позволяет разным экспертам специализироваться на разных частях входного пространства. Такая архитектура особенно полезна для больших и сложных наборов данных, поскольку она позволяет эффективно разделить проблемное пространство на более простые подпространства.

Заявления от OpenAI нет, но источники заслуживают доверия

Информация о GPT-4 исходит от Джорджа Хотца, основателя Comma.ai, стартапа в области автономного вождения. Хотц - эксперт по ИИ, который также известен своим хакерским прошлым: Он был первым, кто взломал iPhone и Sony Playstation 3.

Другие эксперты по ИИ также прокомментировали сообщение Хотца в Twitter, заявив, что его информация, скорее всего, правдива.

Чему открытый исходный код может научиться у GPT-4?

Возможно, архитектура упростила обучение GPT-4, позволив разным командам работать над разными частями сети. Это также объясняет, почему OpenAI смогла разработать мультимодальные возможности GPT-4 независимо от существующего продукта и выпустить их отдельно. Тем временем, однако, GPT-4 мог быть объединен в более компактную модель для повышения эффективности, предположил Сумит Чинтала, один из основателей PyTorch.

Хотц также предположил, что GPT-4 производит не один выход, а итеративно 16 выходов, которые улучшаются с каждой итерацией.

Сообщество разработчиков с открытым исходным кодом могло бы попытаться воспроизвести эту архитектуру; идеи и технология были доступны уже некоторое время. Однако GPT-4, возможно, показал, насколько далеко может зайти архитектура MoE при наличии соответствующих обучающих данных и вычислительных ресурсов.

ps. Лайк, пожалуйста, он продвинет статью вверх

GPT-4 глазами <a href="https://api.vc.ru/v2.8/redirect?to=http%3A%2F%2Ft.me%2FKolersky_Midjorney_Bot&postId=751747" rel="nofollow noreferrer noopener" target="_blank">Midjourney</a>
GPT-4 глазами Midjourney

KolerskyAi - решения на основе нейросетей: telegram боты в ChatGPT, GPT-4 без VPN, а так же Midjourney, Dall-e, Stable Diffusion+.

55
7 комментариев

все новое хорошо забытое старое

1
Ответить

Все нейросети - куча перцептронов Розенблатта с теми или иными модификациями. 1957 год.

Ответить

Все нейросети - куча перцептронов Розенблатта с теми или иными модификациями - уж слишком утрируете

1
Ответить

Комментарий недоступен

Ответить

Комментарий недоступен

Ответить

Комментарий недоступен

Ответить

Комментарий недоступен

Ответить