Google выпустила экспериментальную модель Diffusion Gemma — она генерирует текст и код «из шума», как картинки

Веса выложили в открытый доступ.

Модель сначала генерирует основу предложения из шести блоков, потом заменяет случайные слова подходящими. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fnewsletter.maartengrootendorst.com%2Fp%2Fa-visual-guide-to-diffusiongemma&amp%3BpostId=2974251&postId=2974251" rel="nofollow noreferrer noopener" target="_blank">Maarten Grootendorst</a>

Google DeepMind предложила способы ускорить генерацию текста, снизив нагрузку на графические процессоры пользователей при локальном запуске.
Diffusion Gemma — первая открытая модель в экспериментальном семействе. Традиционно авторегрессионные модели генерируют токены один за другим слева направо, и каждый новый токен зависит от предыдущего. Diffusion Gemma же использует диффузию.
Обычно такой метод применяется в генерации изображений, когда из «шума» в виде случайного набора пикселей модель собирает картинку. Diffusion Gemma делает то же самое с текстом — сразу генерирует абзац из 256 случайных токенов, а потом подставляет нужные слова в общую рамку.
По словам Google, это увеличивает скорость генерации текста в четыре раза. Одновременно подход решает проблему «узкого места» пропускной способности памяти при локальном запуске — нет «простоя» во время предсказания каждого следующего слова, нагрузка смещается на вычислительные возможности графического процессора.
Квантованная (сжатая) версия запускается на 18 ГБ видеопамяти. Diffusion Gemma — «рассуждающая» модель на базе Gemma 4, у неё 26 млрд параметров с 3,8 млрд активных, архитектура MoE (смеси экспертов), контекстное окно в 256 тысяч токенов.
Веса модели доступны на Hugging Face. Также есть демоверсия, где можно посмотреть, как она генерирует HTML-код для сайтов по такому же принципу — готовыми блоками.
Пока модель уступает обычной Gemma 4 26B по всем бенчмаркам, кроме скорости.

#новости #google