GPT-4 имеет 1,76 триллиона параметров и использует технологию 30-летней давности
GPT-4 имеет 1,76 триллиона параметров и использует технологию 30-летней давности

По слухам, GPT-4 базируется на восьми моделях, каждая из которых имеет 220 миллиардов параметров, связанных в архитектуре Mixture of Experts (MoE). Этой идее почти 30 лет, и она уже использовалась для больших языковых моделей, например, в Switch Transformer от Google.

55

все новое хорошо забытое старое

1
Ответить