Google выпустил открытую диффузионную языковую модель DiffusionGemma
DiffusionGemma построена на базе Gemma 4, Имеет 26 миллиардов параметров, из которых 4 миллиарда активны. В отличие от обычных LLM, она не пишет ответ слева направо по одному токену, а генерирует блоки текста параллельно и постепенно их уточняет.
Google обещает до 4 раз более быструю генерацию на выделенных GPU. Больше 1000 токенов в секунду на NVIDIA H100 и больше 700 токенов в секунду на RTX 5090.
Модель рассчитана на сценарии, где важна скорость: редактирование текста на лету или автодополнение кода. Там, где нужно качество, Google советует использовать традиционную LLM Gemma 4.
Подписывайтесь на Telegram GPT/ChatGPT/AI Central Александра Горного.
Начать дискуссию