реклама
разместить

Mt* представляет CM3leon: революционную модель ИИ для расширенного преобразования текста в изображение

Обладая универсальными возможностями и улучшенной производительностью, CM3leon представляет собой важный шаг на пути к созданию и пониманию изображений с более высокой точностью, открывая путь для расширенного творчества и приложений в метавселенной.

Mt* представляет CM3leon: революционную модель ИИ для расширенного преобразования текста в изображение

Недавно Mt* поделилась своим последним исследованием CM3leon (произносится как «хамелеон»), модели на основе преобразователя, которая достигает самых современных результатов в области преобразования текста в изображение и демонстрирует новые возможности мультимодального ИИ.

В последние годы быстро развиваются генеративные модели ИИ, способные создавать изображения из текстовых подсказок. Такие модели, как Midjourney , DALL-E 2 и Stable Diffusion , могут создавать фотореалистичные сцены и портреты из коротких текстовых описаний. В этих моделях используется метод, называемый диффузией — процесс, который включает итеративное уменьшение шума в изображении, полностью состоящем из шума, и постепенное приближение его к желаемой цели.

CM3leon использует другой подход. Будучи моделью на основе преобразователя, она использует силу механизмов внимания для взвешивания релевантности входных данных, будь то текст или изображения. Это архитектурное отличие позволяет CM3leon достигать более высоких скоростей обучения и лучшего распараллеливания, что делает его более эффективным, чем традиционные методы, основанные на диффузии.

Но необработанные показатели производительности не раскрывают полной картины. Где CM3leon действительно сияет, так это в обработке более сложных подсказок и задач редактирования изображений. Например, CM3leon может точно отобразить изображение из подсказки вроде «Маленький кактус в соломенной шляпе и неоновых солнцезащитных очках в пустыне Сахара».

Mt* представляет CM3leon: революционную модель ИИ для расширенного преобразования текста в изображение

Модель также отлично подходит для редактирования существующих изображений на основе текстовых инструкций в свободной форме, таких как изменение цвета неба или добавление объектов в определенных местах. Эти возможности намного превосходят возможности ведущих моделей, таких как DALL-E 2, которые в настоящее время могут быть достигнуты.

Редактирование изображений с текстовым управлением

Mt* представляет CM3leon: революционную модель ИИ для расширенного преобразования текста в изображение

Универсальная архитектура CM3leon позволяет плавно переключаться между текстом, изображениями и композиционными задачами. Помимо преобразования текста в изображение, CM3leon может генерировать подписи к изображениям, отвечать на вопросы о содержании изображений и даже создавать изображения на основе текстовых описаний ограничивающих рамок и карт сегментации.

Объект-изображение

Имея текстовое описание сегментации ограничивающей рамки изображения, CM3leon может сгенерировать изображение.

Mt* представляет CM3leon: революционную модель ИИ для расширенного преобразования текста в изображение

Результаты сверхвысокого разрешения

Отдельный этап сверхвысокого разрешения может быть интегрирован с выходом CM3leon, что значительно улучшает разрешение и детализацию. Ниже приведены четыре примера изображений для каждой подсказки: (1) Дымящаяся чашка кофе на фоне гор. Отдых во время поездки. (2) Красивая, величественная дорога во время заката. Эстетика. (3) Маленький круглый остров посреди озера. Леса вокруг озера. Высокий контраст

Mt* представляет CM3leon: революционную модель ИИ для расширенного преобразования текста в изображение

Успех CM3leon можно объяснить его уникальной архитектурой и методами обучения. Модель использует архитектуру преобразователя только для декодера, похожую на известные текстовые модели, но с дополнительной возможностью обработки как текста, так и изображений. Обучение включает в себя расширение поиска, основанное на недавней работе в этой области, и точную настройку инструкций для различных задач по созданию изображений и текста.

Mt* еще не объявила о планах публичного выпуска CM3leon. Но эта модель определяет новую планку для мультимодального ИИ и демонстрирует мощь таких методов, как расширение поиска и точная настройка под наблюдением. Это замечательное достижение указывает на будущее, в котором системы ИИ смогут плавно переключаться между пониманием, редактированием и созданием изображений, видео и текста.

А если вам еще больше интересна тема ИИ, вы хотите знать больше и не пропускать новинки и обзоры, подпишитесь на канал в тг, мне будет приятно -

*Организация, деятельность которой запрещена на территории Российской Федерации.

66
реклама
разместить
2 комментария

примечательная вещица, чашка с кофе с "дымком" получилась

Это очередная новая ИИ ,которая лучше всех?

Audi сократит до 7500 рабочих мест в Германии к 2029 году для уменьшения расходов

«Дочка» Volkswagen следует примеру материнской компании.

Источник: Audi
33
реклама
разместить
Китайская BYD представила систему для зарядки электромобилей «почти такой же быстрой, как на АЗС»

И анонсировала создание сети «суперзарядок» в Китае.

77
55
Что должен успеть сделать каждый российский предприниматель до 30 мая 2025 года

Уже поняли про что речь? Верно, про утечку. Если быть точнее, про утечку персональных данных из компании. Лет 10 назад это понятие не вызывало откровенно негативных чувств. С недавних пор оно неразрывно с тревогой и печалью, а буквально через полтора месяца уже будет навевать гнев и нести опустошение: не только эмоциональное, но и финансовое, ибо н…

Что должен успеть сделать каждый российский предприниматель до 30 мая 2025 года
22
Блогер «обдурил» старую систему Tesla Autopilot — она не распознала стену с фотографией пустой дороги

Поэтому автомобиль её протаранил.

1616
88
11
Тут бы и человек не увидел разницы на скорости
ФАС предложила крупнейшим торговым сетям ограничить наценки на продукты

Среди них — «Лента», «Азбука вкуса», «Вкусвилл».

55
22
11
Блогер Oblomoff вместе с партнёром решили закрыть доставку роллов и пиццы в Санкт-Петербурге

Причина — увеличение себестоимости производства, снижение покупательной способности и конкуренция.

Источник фото: Славный Друже Oblomoff / Telegram
2222
1313
66
ПФФФ конечно, он столько лет обозревал разные доставки, столько за...рал всяких доставок разных, что когда открыл что то свое потребовалось держать уровень который сам и поднял до небес. А тут выяснилось, что это вообще не рентабельно, ну что же это было ясно с самого начала, разве нет?
Министерство туризма и спорта Таиланда заявило о соглашении сократить срок безвизового пребывания в стране с 60 до 30 дней

К нему пришли ведомства в стране, но официально правила пока не меняли.

Источник: Florian Wehde / Unsplash
44
33
11
реклама
разместить
Китайская Hailuo AI выпустила генератор изображений — в нём есть функция создания рекламных баннеров

Привели примеры пользователей и собственные тесты: постеры с текстом, генерация персонажей, предметов и рисунков.

Запрос: «iPhone 15 Pro лежит на полотенце, которое расстелено на песке у моря»
1111
Всяким дизайнерам и рисовальщикам скоро с Тая на мороз
Семейная ипотека на вторичку: подробные условия и города

С 1 апреля 2025 года семейная ипотека распространяется и на вторичку. Разбираем новые условия: кто может взять льготный кредит, в каких городах и домах.

Семейная ипотека на вторичку
55
Alphabet выделила в отдельную компанию Taara — проект по передаче интернета с помощью лазеров

Так компания надеется ускорить его развитие.

Исчточник: Taara 
22
11
[]