Новшества в мире искусственного интеллекта: дайджест об ИИ от студии дизайна.
Всем привет! Меня зовут Егор, и я недавно устроился в Chipsa на совершенно новую как для себя так и для студии должность — ai-scientist. Совместно с командой мы будем устраивать эксперименты, пытаться усилить внедрение ИИ в коммерческую деятельность и рассказывать о наших успехах и провалах.
И начну я с небольшого дайджеста, в котором расскажу какие обновления я приметил в мире искусственного интеллекта за недавнее время.
FLUX
FLUX удивляет не только революционным качеством уровня Midjourney, но и своим разнообразием стилей — от реалистичных фотографий до игровых и пользовательских интерфейсов. Такая модель не останется без внимания, и вот что мы имеем спустя неделю.
Simple Tuner v0.9.8: Эффективная настройка тренировки для ограниченного количества видеопамяти.
Simple Tuner v0.9.8 — это универсальный инструмент, предназначенный для обучения на различных графических процессорах с различной емкостью видеопамяти. В нем используется квантованное обучение flux, позволяющее использовать графические процессоры с объемом видеопамяти всего 13,9 ГБ и эффективно масштабировать до 40 ГБ. Хотя инструмент поддерживает как LoRa, так и полную настройку, последняя, как правило, не рекомендуется.
Также можно использовать несколько графических процессоров, но при таком подходе предпочтение отдается квантованию и LORA, а не разделению моделей. Стоит отметить, что в настоящее время разрабатывается квантовое обучение для установок с несколькими графическими процессорами. Для тех, кто стремится к полной настройке, требуется значительный объем видеопамяти объемом 80 ГБ на каждый графический процессор.
Улучшите соблюдение промптов в Flux и внедрите функциональность негативных запросов
Используя метод, называемый sd-dynamic-thresholding. Он предполагает установку значения параметра Classifier-Free Guidance (CFG) выше 1, что отличается от привычного значения Flux. Этот метод позволяет Flux обрабатывать как положительные, так и отрицательные запросы. Однако основным компромиссом является значительное снижение скорости обработки - примерно на 50% медленнее при использовании CFG > 1. Рекомендуется значение CFG = 3 для получения оптимальных результатов, обеспечивая баланс между улучшенным качеством вывода и вычислительными затратами.
Модель ControlNet (Canny) для преобразования текста в изображение FLUX.1-dev
XLabs AI выпустила модель ControlNet, Candy, для системы FLUX.1-dev. Она позволяет создавать более контролируемые изображения на основе определения границ. Учитывая внезапное появление этих передовых инструментов из неизвестного источника, рекомендуется соблюдать осторожность при загрузке этих инструментов.
6 новых Flux LoRa для адаптации стиля
Также X-Labs AI выпустила коллекцию из шести новых моделей LoRa (низкоуровневых адаптационных моделей) для системы генерации изображений Flux. Эти модели включают в себя такие стили, как арт, аниме, Дисней, пейзаж, ретро и реалистичный.
Leaked: проект искусственного интеллекта Nvidia "Cosmos" использует огромные объемы видеоданных
Также недавно 404 Media опубликовали отчет о секретном проекте Nvidia "Cosmos". В отчете, основанном на утечке внутренних документов, говорится, что Nvidia обрабатывает огромные объемы видеоданных для разработки самой современной модели video foundation. Сообщается, что этот искусственный интеллект будет использоваться в различных продуктах Nvidia, включая генератор трехмерных миров Omniverse, системы для автономного вождения автомобилей и решения для "цифрового человека". В сообщении освещаются продолжающиеся этические и юридические дебаты, связанные с методами сбора данных при разработке искусственного интеллекта.
ml_mdm от Apple: Синтез изображений с открытым исходным кодом
Apple выпустила ml_mdm, фреймворк с открытым исходным кодом для эффективного обучения высококачественных моделей преобразования текста в изображение.
Cog Video X2B: Модель преобразования текста в видео
Компания THUDM выпустила CogVideoX-2B, модель преобразования текста в видео с открытым исходным кодом.
Попробовать на Hugging Face Spaces
Подписывайтесь на канал студии дизайна Chipsa, чтобы наблюдать за тем, как у нас удается использовать самые свежие технологии в создании креативных сайтов и контента.
P.S
Если вдруг кто-то подумал, что я не настоящий, то вот как я сделал себе аватара.
Я взял воркфлоу с https://openart.ai/workflows/home
Требуется изображение лица и реф (позы), через controlnet модели openpose и canny (которая на флюкс недавно вышла) создается скелет и контур референса, генерируется новое изображение по промпту и накладывается лицо через ipadapter
В данной статье мы подробно рассмотрим описание и примеры топовых моделей - чекпойнтов нейросети Flux AI. Для вашего удобства каждую модель проанализируем на примерах генераций в стилях реализма и аниме. Flux AI выделяется среди конкурентов благодаря возможности подбирать модель под конкретные творческие задачи, что делает её особенно популярной ср…
Привет, друзья! Очень часто бывает, что вам нужно сделать рекламные макеты с определенным человеком (или, например, с вашим лицом). Но ехать ради пары изображений в Дубай, на Мальдивы или лететь на Луну очень затратно. Либо вы хотите похвастаться перед подружками вашими фото с фешенебельных курортов, но лететь туда нет возможности. Что же делать?
Навык руководства — это универсальный навык современного человека.
Привет, друзья! OpenAI наконец-то представила публичную версию своего видеогенератора — Sora Turbo. Почти год назад я писал о первых демо этой технологии, и мы все были в полном восторге от показанных возможностей. Меня зовут Илья, я основатель онлайн-нейросети для создания изображений ArtGeneration.me, техноблогер и нейро-евангелист, и сегодня мы…
Показываю на примере Leonardo Ai.
«Загрузил товар, запустил рекламу и жди продаж» — так многие новички представляют работу с маркетплейсами. Но через месяц вместо прибыли — убытки: расходы на продвижение съели весь доход. Разбираемся, как реклама может привести к минусам на счету и как этого избежать.
Всем привет! Сегодня я хочу поделиться некоторыми ключевыми техниками, которые я узнал, экспериментируя с моделью Flux. За последние несколько дней я сгенерировал около 500 изображений, настраивая промпты и LoRA, чтобы увидеть, как различные структуры промптов могут управлять генерацией изображений и резкостью фона.