Google выпустила экспериментальную модель Diffusion Gemma — она генерирует текст и код «из шума», как картинки
Веса выложили в открытый доступ.
Модель сначала генерирует основу предложения из шести блоков, потом заменяет случайные слова подходящими. Источник: Maarten Grootendorst
- Google DeepMind предложила способы ускорить генерацию текста, снизив нагрузку на графические процессоры пользователей при локальном запуске.
- Diffusion Gemma — первая открытая модель в экспериментальном семействе. Традиционно авторегрессионные модели генерируют токены один за другим слева направо, и каждый новый токен зависит от предыдущего. Diffusion Gemma же использует диффузию.
- Обычно такой метод применяется в генерации изображений, когда из «шума» в виде случайного набора пикселей модель собирает картинку. Diffusion Gemma делает то же самое с текстом — сразу генерирует абзац из 256 случайных токенов, а потом подставляет нужные слова в общую рамку.
- По словам Google, это увеличивает скорость генерации текста в четыре раза. Одновременно подход решает проблему «узкого места» пропускной способности памяти при локальном запуске — нет «простоя» во время предсказания каждого следующего слова, нагрузка смещается на вычислительные возможности графического процессора.
- Квантованная (сжатая) версия запускается на 18 ГБ видеопамяти. Diffusion Gemma — «рассуждающая» модель на базе Gemma 4, у неё 26 млрд параметров с 3,8 млрд активных, архитектура MoE (смеси экспертов), контекстное окно в 256 тысяч токенов.
- Веса модели доступны на Hugging Face. Также есть демоверсия, где можно посмотреть, как она генерирует HTML-код для сайтов по такому же принципу — готовыми блоками.
- Пока модель уступает обычной Gemma 4 26B по всем бенчмаркам, кроме скорости.
Источник: Google
31 комментарий