DiffusionGemma построена на базе Gemma 4, Имеет 26 миллиардов параметров, из которых 4 миллиарда активны. В отличие от обычных LLM, она не пишет ответ слева направо по одному токену, а генерирует блоки текста параллельно и постепенно их уточняет.
Google обещает до 4 раз более быструю генерацию на выделенных GPU. Больше 1000 токенов в секунду…