Google выпустила открытую мультимодальную модель Gemma 4 12B — она может работать на ноутбуке с 16 ГБ оперативной памяти
Размер контекстного окна составляет 256 тысяч токенов.
Источник: Google
- Gemma 4 12B содержит 11,95 млрд параметров и поддерживает работу с текстом, аудио и изображениями. Ключевой особенностью модели компания называет «унифицированную архитектуру» без использования кодировщиков (энкодеров).
- В отличие от классических мультимодальных систем, где изображения и звук сначала проходят через отдельные кодировщики, Gemma 4 12B обрабатывает визуальные и аудиоданные через «LLM-ядро».
- По собственным данным компании, новая модель по производительности «близка» к более крупной Gemma 4 26B MoE, но при этом требует вдвое меньше памяти. Её можно запустить на ноутбуке с 16 ГБ ОЗУ.
- При этом размер контекстного окна Gemma 4 12B составляет 256 тысяч токенов. Этого достаточно обрабатывать «объёмные» финансовые отчёты или другие документы, а также «крупные» репозитории с кодом, отмечает Venturе Beats.
- Gemma 4 12B доступна для загрузки на Hugging Face и Kaggle, а также в Google AI Edge Gallery.
58 комментариев