Microsoft представила Phi-3: крошечную, но мощную языковую модель

Microsoft представила Phi-3: крошечную, но мощную языковую модель

Гонка за лучшими малыми языковыми моделями (SML) продолжается! Поскольку все больше производителей смартфонов хотят запускать ИИ-модели прямо на своем устройстве, технологические гиганты борются за выпуск на рынок самых мощных SML. Сегодня Microsoft сделала большой шаг вперед, выпустив Phi-3 - семейство новых небольших, но впечатляющих языковых моделей.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Разве не интересно использовать чатбота с ИИ, такого как ChatGPT, на наших смартфонах без необходимости подключения к Интернету?

Что такое Phi-3?

Семейство Phi-3 - это набор моделей ИИ, которые разработаны как наиболее способные и экономичные SLM, превосходящие модели аналогичного и большего размера в различных тестах в области языка, мышления, программирования и математики.

Семейство Phi-3 предлагает ряд моделей, расположенных вдоль кривой «качество-стоимость», предоставляя клиентам практичный выбор при создании генеративных ИИ-приложений.

  • Phi-3-mini - это модель декодера с 3,8 биллиона параметров, обученная на 3,3 трлн. токенов. В ней используется контекстное окно длиной 4 тыс. токенов и тот же токенизатор, что и в LLaMa-2, со словарем объемом 32 тыс. слов. Модель имеет 3072 скрытых измерения, 32 головки внимания и 32 уровня. Существует также версия с длинным контекстом под названием Phi-3-mini-128K, которая расширяет контекст до 128 тыс. токенов.
  • Phi-3-small - это модель с 7 биллионами параметров, обученная на 4,8 триллионах токенов. Она использует токенизатор tiktoken с вокабуляром 100K и контекстное окно длиной 8 тыс. токенов. Архитектура имеет 32 слоя, 4096 скрытых размеров и использует сгруппированное внимание к запросам плюс чередование плотного/блочного разреженного внимания для снижения потребления памяти.
  • Phi-3-medium - это модель предварительного просмотра с 14 параметрами, также обученная на 4,8 триллионах токенов, с 40 слоями, 40 головками и 5120 размерами встраивания.

Такая гибкость очень важна для разработчиков и компаний, желающих интегрировать возможности искусственного интеллекта в свои продукты без лишних затрат.

Несмотря на относительно небольшой размер, эти модели достигают революционных результатов в ключевых тестах. Однако меньший размер модели ограничивает ее производительность в тестах на знание фактов, таких как TriviaQA.

Microsoft представила Phi-3: крошечную, но мощную языковую модель

На рисунке ниже сравнивается качество (по производительности в бенчмарке Massive Multitask Language Understanding) и размер (в миллиардах активных параметров) для различных SLM.

Microsoft представила Phi-3: крошечную, но мощную языковую модель

Основные выводы:

  • Новые модели Phi-3 от Microsoft, особенно малая и средняя предварительные версии, показывают более высокие результаты в бенчмарке MMLU по сравнению с другими моделями аналогичного размера, такими как Mistral 7B, Gemma 7B, Llama-3-8B-int и Mixtral 8x7B.
  • Модели Phi-3 mini (4k и 128k) имеют более низкие показатели, но и размер их значительно меньше, чем у других представленных моделей.
  • В целом, прослеживается тенденция повышения качества с увеличением размера модели, но новые модели Phi-3 small и medium, похоже, опережают эту тенденцию по сравнению с другими моделями, представленными на графике.

Взгляните на этот пример работы Phi-3 mini на мобильном телефоне.

Microsoft представила Phi-3: крошечную, но мощную языковую модель

Это очень впечатляет. Тот факт, что теперь мы можем запускать подобные модели ИИ прямо на наших смартфонах, является революционным событием.

Если вы хотите узнать больше о Phi-3, ознакомьтесь с техническим описанием здесь.

Попробуйте сами

В настоящее время Phi-3 mini доступен на следующих платформах:

В Azure AI Studio уже доступны инструкции Phi-3-mini 4k и 128k.

Microsoft представила Phi-3: крошечную, но мощную языковую модель

Вот как выглядит панель управления:

Microsoft представила Phi-3: крошечную, но мощную языковую модель

Модель в HuggingChat кажется еще более способной, а также имеет возможность поиска в интернете, что является фантастической функцией.

Microsoft представила Phi-3: крошечную, но мощную языковую модель

Сложно представить, что скоро мы будем носить с собой смартфоны со встроенными ИИ-моделями, способными соперничать с такими, как ChatGPT. Мне не терпится увидеть, как будет развиваться эта технология и какие новые приложения и возможности она открывает.

Хотя Phi-3 и подобные небольшие языковые модели все еще ограничены по сравнению со своими гораздо более крупными аналогами, такими как GPT-4, в плане знаний, рассуждений и возможностей генерации, они представляют собой значительный шаг вперед в области развития устройств с ИИ. В обозримом будущем, вероятно, сохранится разрыв в возможностях между моделями на базе устройств и облачными моделями, но этот разрыв сокращается быстрее, чем многие из нас ожидали.

Но в целом я настроен оптимистично - я считаю, что ИИ на устройствах имеет потенциал сделать наши гаджеты намного умнее. А что думаете вы? Готовы ли вы к появлению Phi-3 и других небольших языковых моделей в ваших гаджетах?

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Источник статьи на английском - здесь.

22
Начать дискуссию