Google выпустил открытую диффузионную языковую модель DiffusionGemma

DiffusionGemma построена на базе Gemma 4, Имеет 26 миллиардов параметров, из которых 4 миллиарда активны. В отличие от обычных LLM, она не пишет ответ слева направо по одному токену, а генерирует блоки текста параллельно и постепенно их уточняет.

Google обещает до 4 раз более быструю генерацию на выделенных GPU. Больше 1000 токенов в секунду на NVIDIA H100 и больше 700 токенов в секунду на RTX 5090.

Модель рассчитана на сценарии, где важна скорость: редактирование текста на лету или автодополнение кода. Там, где нужно качество, Google советует использовать традиционную LLM Gemma 4.

https://blog.google/innovation-and-ai/technology/developers-tools/diffusion-gemma-faster-text-generation/

Подписывайтесь на Telegram GPT/ChatGPT/AI Central Александра Горного.