По слухам, GPT-4 базируется на восьми моделях, каждая из которых имеет 220 миллиардов параметров, связанных в архитектуре Mixture of Experts (MoE). Этой идее почти 30 лет, и она уже использовалась для больших языковых моделей, например, в Switch Transformer от Google.
Комментарий недоступен