Google выпустила открытую мультимодальную модель Gemma 4 12B — она может работать на ноутбуке с 16 ГБ оперативной памяти

Размер контекстного окна составляет 256 тысяч токенов.

Источник: Google
Источник: Google
  • Gemma 4 12B содержит 11,95 млрд параметров и поддерживает работу с текстом, аудио и изображениями. Ключевой особенностью модели компания называет «унифицированную архитектуру» без использования кодировщиков (энкодеров).
  • В отличие от классических мультимодальных систем, где изображения и звук сначала проходят через отдельные кодировщики, Gemma 4 12B обрабатывает визуальные и аудиоданные через «LLM-ядро».
  • По собственным данным компании, новая модель по производительности «близка» к более крупной Gemma 4 26B MoE, но при этом требует вдвое меньше памяти. Её можно запустить на ноутбуке с 16 ГБ ОЗУ.
  • При этом размер контекстного окна Gemma 4 12B составляет 256 тысяч токенов. Этого достаточно обрабатывать «объёмные» финансовые отчёты или другие документы, а также «крупные» репозитории с кодом, отмечает Venturе Beats.
  • Gemma 4 12B доступна для загрузки на Hugging Face и Kaggle, а также в Google AI Edge Gallery.
19
5
4
3
1
58 комментариев