Microsoft AI Research вступает в гонку компактных LLM: раскрыты детали их новой модели Phi-2

Google совсем недавно представил свои модели Gemini включая компактные Nano эксклюзивно для своего нового смартфона Pixel, выходцы из DeepMind активно продвигают свой стартап Mistral из Европы, и вот Microsoft рассказал о своих достижениях в этой области, демонстрируя, что не упускает перспективные направления исследований и оптимизаций языковых моделей несмотря на глубокое сотрудничество с OpenAI.

www.microsoft.com

Phi-2: The surprising power of small language models

Microsoft решил не меряться в стиле OpenAI десятками млрд параметров, а продемонстрировал свою "всего" 2,7 млрд'ную модель, где для тренировки использовались скромные по нынешним меркам ресурсы: 14 дней на 96 A100 GPU чипах. То есть получается, что если оптимизировать данные для обучения и сам процесс, то можно получить качество, сравнимое с моделями в х20 раз больше.

Как думаете, Сатья Наделла снова смотрит в корень и делает ставку на хорошо работающие модели, которыми можно будет на насимых и не только устройствах оффлайн/онлайн или просто красивые картинки для инвесторов чтобы акции не просели? :)