Новшества в мире искусственного интеллекта: дайджест об ИИ от студии дизайна.
Всем привет! Меня зовут Егор, и я недавно устроился в Chipsa на совершенно новую как для себя так и для студии должность — ai-scientist. Совместно с командой мы будем устраивать эксперименты, пытаться усилить внедрение ИИ в коммерческую деятельность и рассказывать о наших успехах и провалах.
И начну я с небольшого дайджеста, в котором расскажу какие обновления я приметил в мире искусственного интеллекта за недавнее время.
FLUX
FLUX удивляет не только революционным качеством уровня Midjourney, но и своим разнообразием стилей — от реалистичных фотографий до игровых и пользовательских интерфейсов. Такая модель не останется без внимания, и вот что мы имеем спустя неделю.
Simple Tuner v0.9.8: Эффективная настройка тренировки для ограниченного количества видеопамяти.
Simple Tuner v0.9.8 — это универсальный инструмент, предназначенный для обучения на различных графических процессорах с различной емкостью видеопамяти. В нем используется квантованное обучение flux, позволяющее использовать графические процессоры с объемом видеопамяти всего 13,9 ГБ и эффективно масштабировать до 40 ГБ. Хотя инструмент поддерживает как LoRa, так и полную настройку, последняя, как правило, не рекомендуется.
Также можно использовать несколько графических процессоров, но при таком подходе предпочтение отдается квантованию и LORA, а не разделению моделей. Стоит отметить, что в настоящее время разрабатывается квантовое обучение для установок с несколькими графическими процессорами. Для тех, кто стремится к полной настройке, требуется значительный объем видеопамяти объемом 80 ГБ на каждый графический процессор.
Улучшите соблюдение промптов в Flux и внедрите функциональность негативных запросов
Используя метод, называемый sd-dynamic-thresholding. Он предполагает установку значения параметра Classifier-Free Guidance (CFG) выше 1, что отличается от привычного значения Flux. Этот метод позволяет Flux обрабатывать как положительные, так и отрицательные запросы. Однако основным компромиссом является значительное снижение скорости обработки - примерно на 50% медленнее при использовании CFG > 1. Рекомендуется значение CFG = 3 для получения оптимальных результатов, обеспечивая баланс между улучшенным качеством вывода и вычислительными затратами.
Модель ControlNet (Canny) для преобразования текста в изображение FLUX.1-dev
XLabs AI выпустила модель ControlNet, Candy, для системы FLUX.1-dev. Она позволяет создавать более контролируемые изображения на основе определения границ. Учитывая внезапное появление этих передовых инструментов из неизвестного источника, рекомендуется соблюдать осторожность при загрузке этих инструментов.
6 новых Flux LoRa для адаптации стиля
Также X-Labs AI выпустила коллекцию из шести новых моделей LoRa (низкоуровневых адаптационных моделей) для системы генерации изображений Flux. Эти модели включают в себя такие стили, как арт, аниме, Дисней, пейзаж, ретро и реалистичный.
Leaked: проект искусственного интеллекта Nvidia "Cosmos" использует огромные объемы видеоданных
Также недавно 404 Media опубликовали отчет о секретном проекте Nvidia "Cosmos". В отчете, основанном на утечке внутренних документов, говорится, что Nvidia обрабатывает огромные объемы видеоданных для разработки самой современной модели video foundation. Сообщается, что этот искусственный интеллект будет использоваться в различных продуктах Nvidia, включая генератор трехмерных миров Omniverse, системы для автономного вождения автомобилей и решения для "цифрового человека". В сообщении освещаются продолжающиеся этические и юридические дебаты, связанные с методами сбора данных при разработке искусственного интеллекта.
ml_mdm от Apple: Синтез изображений с открытым исходным кодом
Apple выпустила ml_mdm, фреймворк с открытым исходным кодом для эффективного обучения высококачественных моделей преобразования текста в изображение.
Cog Video X2B: Модель преобразования текста в видео
Компания THUDM выпустила CogVideoX-2B, модель преобразования текста в видео с открытым исходным кодом.
Попробовать на Hugging Face Spaces
Подписывайтесь на канал студии дизайна Chipsa, чтобы наблюдать за тем, как у нас удается использовать самые свежие технологии в создании креативных сайтов и контента.
P.S
Если вдруг кто-то подумал, что я не настоящий, то вот как я сделал себе аватара.
Я взял воркфлоу с https://openart.ai/workflows/home
Требуется изображение лица и реф (позы), через controlnet модели openpose и canny (которая на флюкс недавно вышла) создается скелет и контур референса, генерируется новое изображение по промпту и накладывается лицо через ipadapter