Порция сентябрьских новостей из мира ИИ от студии дизайна

Привет! Это Chipsa. Сегодня хотим рассказать про коллаборацию LIONSGATE с RUNWAY и обновленный Kling, а в конце покажем интересный инструмент на базе SD 1.5.

Пользователь Reddit поделился своим опытом успешного запуска FLUX на видеокарте от AMD, что, как известно, является сложной задачей из-за ограниченной поддержки программного обеспечения.

Он использовал ComfyUI с моделью FLUX 1, работающий под управлением Windows 11 с RX6600 XT (8 ГБ видеопамяти). Чтобы решить проблемы совместимости с AMD, он внедрил Zluda, порт CUDA с открытым исходным кодом для платформы AMD ROCm. Он также использовал квантованную (сжатую) модель GGUF для управления ограничениями видеопамяти. В статье приводится информация о времени генерации при различных разрешениях и этапах, при этом для получения окончательного высококачественного изображения требуется около 800 секунд.

Китайская нейросеть Kling выпустила обновленную версию 1.5, позволяющую генерировать уже 10 секундные видео в качестве FullHD. Нейросеть стала гораздо более внимательна к деталям, однако цена за новую версию в три с половиной раза выше первой версии. В ней, кстати, также обновилась функция Motion Brush - теперь пользователь может нарисовать путь объекта во время анимации.

Крупная голливудская студия Lionsgate сделала новаторский шаг, заключив партнерство с исследовательской фирмой Runway. Они будут совместно работать в области искусственного интеллекта для разработки эксклюзивных моделей на основе своей обширной библиотеки фильмов и телепередач. Ожидается, что эта первая в своем роде сделка для крупной студии проложит путь к аналогичным соглашениям по всей отрасли.

Пока Flux не радует обновлениями, решили удивить вас инструментом на базе SD 1.5. CatVTON позволяет примерить на себя любую вещь менее чем за минуту! Просто выделите зону, которую хотите заменить на фото и загрузите изображение вещи.

Порция сентябрьских новостей из мира ИИ от студии дизайна

ChatGPT получил новый интерфейс - Canvas. Он основан на базе GPT-4o и предлагает возможность выделять определенные разделы, чтобы точно указать, на чем стоит сосредоточиться чату, а также дать указания к определенной части ответа.

В меню появилось множество функций, с помощью которых вы можете попросить ChatGPT отрегулировать длину текста, отладить ваш код и быстро выполнить другие полезные действия. На мероприятии DevDay от OpenAI также было представлено несколько интересных новостей - Vision Fine-tuning, Realtime API и новость о новом финансировании для масштабирования. Вероятно, у компании большие планы на предстоящий год.

На прошлой неделе прошел Meta* Connect, на котором были представлены новые модели очков. Также презентовали новую функцию, согласно которой очки будут иметь память. Вы сможете посмотреть на что-то и, допустим, сказать “запомни” где я припарковался, или напомни мне позвонить другу через 10 минут.

Обновление также позволит распознавать QR-коды и дав очкам команду отсканировать этот QR-код, вы можете вытащить телефон и он откроет соответствующее приложение на вашем телефоне.

Также Meta* показала нейросеть Movie Gen, которая позволяет генерировать видео высокой четкости с максимальной продолжительностью в 16 секунд и частотой до 24 кадров в секунду.

Помимо обычных видео, ИИ будет способен создавать видеоролик на основе фотографии человека.

А также редактировать уже готовое видео.

Ко всему этому добавляется возможность создавать звуковые эффекты и фоновую музыку к видео.

Microsoft порадует пользователей массой обновлений, многие из которых посвящены устройствам с нейронными процессорами (Neural Processing Unit, NPU). Это почти все новые ноутбуки и компьютеры, выпускаемые Microsoft в последнее время.

Новая функция Recall, похожая на историю браузера, но для всего, что вы делаете на своем устройстве. Она запоминает, как вы редактировали видео или документы в Word, так что вы можете вернуться к определенному моменту и вспомнить что вы делали в определенный момент.

Также обновились функции для работы с изображениями. Среди них появилась возможность визуального поиска в Bing, размытие и удаление фона и удаление объектов. А в Paint добавят генеративную заливку. При использовании системного поиска, Windows будет определять контекст изображений — при запросе BBQ party, система покажет все изображения, связанные с вечеринкой с барбекю, даже если они не имеют соответствующего названия.

Nvidia анонсировала новую большую языковую модель NVLM-D-72B с открытым исходным кодом, которая будет иметь возможность решать vision-language задачи. Исходя из бенчмарков, модель показывает результаты на уровне GPT-4 Vision, а в некоторых тестах даже превосходит GPT-4o и Claude Sonnet. Довольно впечатляющий результат, учитывая факт открытого кода.

B мире генеративных ИИ также появилось несколько интересных новостей: Black Forest Labs выпустила обновленную версию Flux 1.1 Pro, а также открыли доступ к API. Новая модель лучше работает с текстом, а изображения стали более естественными. Luma Dream Machine получила обновление, ускоряющее генерацию видео в 10 раз, а Pika Labs добавили интересные пресеты для генераций.

Подписывайтесь на телеграм-канал студии дизайна Chipsa. Там мы выкладываем наши работы, видеодоклады и материалы о креативном дизайне и разработке. А совсем скоро мы будем делиться крутыми мокапами с нашими подписчиками.
*Деятельность компании Meta Inc. признана в России экстремистской и запрещена.

Порция сентябрьских новостей из мира ИИ от студии дизайна

Успешный запуск FLUX на AMD

Китайский сервис по генерации видео

Коллаборация студии Lionsgate и Runway.

Примеряйте одежду в два клика

ChatGPT получил новый интерфейс

На прошлой неделе прошел Meta* Connect

Microsoft порадует пользователей массой обновлений

Nvidia анонсировала новую большую языковую модель

B мире генеративных ИИ также появилось несколько интересных новостей