Microsoft решил не меряться в стиле OpenAI десятками млрд параметров, а продемонстрировал свою "всего" 2,7 млрд'ную модель, где для тренировки использовались скромные по нынешним меркам ресурсы: 14 дней на 96 A100 GPU чипах. То есть получается, что если оптимизировать данные для обучения и сам процесс, то можно получить качество, сравнимое с моделями в х20 раз больше.