{"id":14293,"url":"\/distributions\/14293\/click?bit=1&hash=05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","hash":"05c87a3ce0b7c4063dd46190317b7d4a16bc23b8ced3bfac605d44f253650a0f","title":"\u0421\u043e\u0437\u0434\u0430\u0442\u044c \u043d\u043e\u0432\u044b\u0439 \u0441\u0435\u0440\u0432\u0438\u0441 \u043d\u0435 \u043f\u043e\u0442\u0440\u0430\u0442\u0438\u0432 \u043d\u0438 \u043a\u043e\u043f\u0435\u0439\u043a\u0438","buttonText":"","imageUuid":""}

Евгений Вилков

8 июл 2023 8.07.2023

GPT-4 имеет 1,76 триллиона параметров и использует технологию 30-летней давности

По слухам, OpenAI GPT-4 основан на архитектуре Mixture of Experts и имеет 1,76 триллиона параметров, пишет The Decoder.

По слухам, GPT-4 базируется на восьми моделях, каждая из которых имеет 220 миллиардов параметров, связанных в архитектуре Mixture of Experts (MoE). Этой идее почти 30 лет, и она уже использовалась для больших языковых моделей, например, в Switch Transformer от Google.

Модель MoE - это тип ансамблевого обучения, который объединяет различные модели, называемые "экспертами", для принятия решения. В модели MoE сеть стробирования определяет вес выхода каждого эксперта в зависимости от входных данных. Это позволяет разным экспертам специализироваться на разных частях входного пространства. Такая архитектура особенно полезна для больших и сложных наборов данных, поскольку она позволяет эффективно разделить проблемное пространство на более простые подпространства.

Заявления от OpenAI нет, но источники заслуживают доверия

Информация о GPT-4 исходит от Джорджа Хотца, основателя Comma.ai, стартапа в области автономного вождения. Хотц - эксперт по ИИ, который также известен своим хакерским прошлым: Он был первым, кто взломал iPhone и Sony Playstation 3.

Другие эксперты по ИИ также прокомментировали сообщение Хотца в Twitter, заявив, что его информация, скорее всего, правдива.

Чему открытый исходный код может научиться у GPT-4?

Возможно, архитектура упростила обучение GPT-4, позволив разным командам работать над разными частями сети. Это также объясняет, почему OpenAI смогла разработать мультимодальные возможности GPT-4 независимо от существующего продукта и выпустить их отдельно. Тем временем, однако, GPT-4 мог быть объединен в более компактную модель для повышения эффективности, предположил Сумит Чинтала, один из основателей PyTorch.

Хотц также предположил, что GPT-4 производит не один выход, а итеративно 16 выходов, которые улучшаются с каждой итерацией.

Сообщество разработчиков с открытым исходным кодом могло бы попытаться воспроизвести эту архитектуру; идеи и технология были доступны уже некоторое время. Однако GPT-4, возможно, показал, насколько далеко может зайти архитектура MoE при наличии соответствующих обучающих данных и вычислительных ресурсов.

ps. Лайк, пожалуйста, он продвинет статью вверх

GPT-4 глазами Midjourney

KolerskyAi - решения на основе нейросетей: telegram боты в ChatGPT, GPT-4 без VPN, а так же Midjourney, Dall-e, Stable Diffusion+.

3K показов

1.3K открытий

7 комментариев

Написать комментарий...

Павел Туганов

8.07.2023

все новое хорошо забытое старое

Ответить

Развернуть ветку

Nocto Dolfus

9.07.2023

Все нейросети - куча перцептронов Розенблатта с теми или иными модификациями. 1957 год.

Ответить

Развернуть ветку

Kayleigh Marie

9.07.2023

Все нейросети - куча перцептронов Розенблатта с теми или иными модификациями - уж слишком утрируете

Ответить

Развернуть ветку

Аккаунт удален

8.07.2023

Комментарий недоступен

Ответить

Развернуть ветку

Аккаунт удален

8.07.2023

Комментарий недоступен

Ответить

Развернуть ветку

Аккаунт удален

8.07.2023

Комментарий недоступен

Ответить

Развернуть ветку

Аккаунт удален

8.07.2023

Комментарий недоступен

Ответить

Развернуть ветку

Написать комментарий...

4 комментария

Раскрывать всегда