ml_mdm: Набор диффузионных моделей Matryoshka от Apple.

Matryoshka (MDM) - сквозная структура для синтеза изображений и видео высокого разрешения. Вместо обучения отдельных моделей использован многомасштабный процесс совместной диффузии, в котором модели меньшего масштаба вложены в модели большего масштаба. Такая структура вложенности не только облегчает обмен свойствами между масштабами, но и обеспечивает постепенный рост обучаемой архитектуры.

ml_mdm: Набор диффузионных моделей Matryoshka от Apple.

ml_mdm - Python-фреймворк для синтеза изображений и видео c с помощью набора pre-trained моделей Matryoshka.

Codebase фреймворка:

ml_mdm: Набор диффузионных моделей Matryoshka от Apple.

🟠ml_mdm.models - реализация core-модели;

🟠ml_mdm.diffusion - диффузионный пайплайн;

🟠ml_mdm.config - подключение конфигурационных классов данных к моделям, конвейерам с помощью simple parsing (надстройка к argparse);

🟠ml_mdm.clis - все инструменты cli проекта.

Для тестирования инференса, оценки на датасете CC12M и обучении на собственных наборах изображений представлены 3 pre-trained модели, построенные на архитектурах U-Net и Nested U-Nets, обученные на 50 млн. пар "текст-изображение" с Flickr:

ml_mdm: Набор диффузионных моделей Matryoshka от Apple.

🟢vis_model_64x64;

🟢vis_model_256x256;

🟢vis_model_1024x1024.

▶Локальный запуск:

ml_mdm: Набор диффузионных моделей Matryoshka от Apple.

Зависимости для установки по умолчанию в файле pyproject.toml выбраны таким образом, чтобы можно было установить библиотеку даже на CPU-only систему.

Running Test Cases:

> pytest # will run all test cases - including ones that require a gpu

> pytest -m "not gpu" # run test cases that can work with just cpu

Download the models:

curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr64/vis_model.pth --output vis_model_64x64.pth

curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr256/vis_model.pth --output vis_model_256x256.pth

curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr1024/vis_model.pth --output vis_model_1024x1024.pth

Launch Web Demo:

torchrun --standalone --nproc_per_node=1 ml_mdm/clis/generate_sample.py --port 19999

⚠ В Issues репозитория есть обращение о некорректной команде запуска Web Demo. Следите за обновлением тикета и коммитами.

📌Лицензирование : Apple Inc.

🟡Arxiv

🖥Github [ Stars: 166 | Issues: 3 | Forks: 6]

Начать дискуссию