Тестируем нейросеть Sana от Nvidia

На прошлой неделе Nvidia выложила код и веса свой 1.6B txt2img модели Sana. Я протестировал эту модель и мне есть что рассказать

(с) Nvidia
(с) Nvidia

1.6B Модель требует всего 12 gb VRAM, а значит её можно запустить на любой средней видеокарте, например RTX 3060 или RTX 4070, как сделал я.

На RTX 4070 генерация одной картинки в разрешении 1024x1024 занимает всего 4 секунды!

В скором времени обещают 0.6B модель, которая требует 8 gb VRAM и будет еще быстрее.

Локальный запуск

Нейросеть можно запустить локально, в репозитории кратко описан этот процесс.

Но если вы захотите установить ее себе, то вас ждет небольшой подводный камень. Официальный пример использует llm Gemma для модерации промпта (она оценивает то, что вы написали и будет не давать генерировать недопустимый контент) и обе модели не влезут в 12gb видеокарты. Если вы разбираетесь в Python, то можно закомментировать соответствующие части кода.

По итогу получим вот такой Gradio интерфейс:

Тестируем нейросеть Sana от Nvidia

Генерации

Если кратко, то качество генераций немного уступает Flux и SD3. С пониманием промпта иногда проблемы, так же можно отметить, что генерации однотипные. Хорошо получаются портреты, но со сложными позами - беда.

Разработчики в своих примерах хвастаются генерацией текста, но по факту нейросети удается написать правильный текст с нескольких попыток, а если у вас в тексте не самые популярные слова, то и вовсе вы не получите что хотели.

С текстом уступает Flux
С текстом уступает Flux
Тестируем нейросеть Sana от Nvidia
Тестируем нейросеть Sana от Nvidia

По беглым тестам, видно, что модель рисует меньше деталей, чем Flux, иногда изображениям не хватает глубины. С анатомией и лицами в целом неплохо.

В целом, учитывая, что модель в 7.5 раз меньше, чем Flux, то это очень неплохой результат.

Протестируйте сами

Тестируем нейросеть Sana от Nvidia

Я запустил веб версию генератора. Там же есть галерея с примерами генераций других людей. Хочу собрать больше примеров, чтобы сделать детальные выводы.

Нейросеть не понимает промпты на русском, но в нашем генераторе они сразу переводятся на английский, так что дерзайте.

Тест бесплатный и без регистрации, запущен на RTX 4070 в нашем Таганрогском офисе. Если перестал работать, следите за новостями в телеграм канале StudGPT

77
11
11
Начать дискуссию