Matryoshka (MDM) - сквозная структура для синтеза изображений и видео высокого разрешения. Вместо обучения отдельных моделей использован многомасштабный процесс совместной диффузии, в котором модели меньшего масштаба вложены в модели большего масштаба. Такая структура вложенности не только облегчает обмен свойствами между масштабами, но и обеспечивает постепенный рост обучаемой архитектуры.ml_mdm - Python-фреймворк для синтеза изображений и видео c с помощью набора pre-trained моделей Matryoshka.Codebase фреймворка:🟠ml_mdm.models - реализация core-модели;🟠ml_mdm.diffusion - диффузионный пайплайн;🟠ml_mdm.config - подключение конфигурационных классов данных к моделям, конвейерам с помощью simple parsing (надстройка к argparse);🟠ml_mdm.clis - все инструменты cli проекта.Для тестирования инференса, оценки на датасете CC12M и обучении на собственных наборах изображений представлены 3 pre-trained модели, построенные на архитектурах U-Net и Nested U-Nets, обученные на 50 млн. пар "текст-изображение" с Flickr: 🟢vis_model_64x64;🟢vis_model_256x256; 🟢vis_model_1024x1024. ▶Локальный запуск:Зависимости для установки по умолчанию в файле pyproject.toml выбраны таким образом, чтобы можно было установить библиотеку даже на CPU-only систему. Running Test Cases:> pytest # will run all test cases - including ones that require a gpu> pytest -m "not gpu" # run test cases that can work with just cpuDownload the models:curl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr64/vis_model.pth --output vis_model_64x64.pthcurl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr256/vis_model.pth --output vis_model_256x256.pthcurl https://docs-assets.developer.apple.com/ml-research/models/mdm/flickr1024/vis_model.pth --output vis_model_1024x1024.pthLaunch Web Demo:torchrun --standalone --nproc_per_node=1 ml_mdm/clis/generate_sample.py --port 19999⚠ В Issues репозитория есть обращение о некорректной команде запуска Web Demo. Следите за обновлением тикета и коммитами.📌Лицензирование : Apple Inc.🟡Arxiv🟡Страница проекта🖥Github [ Stars: 166 | Issues: 3 | Forks: 6]@ai_machinelearning_big_data#AI #Diffusion #ML #Text2Image #Apple