{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Apple выпустила сервис MGIE для редактирования изображений

Инновационное решение под названием «MGIE» позволяет редактировать изображения с помощью простых текстовых инструкций.

Доступно как редактирование картинки целиком, так и ее отдельной области. Можно менять яркость, резкость, применять художественные эффекты или менять размер изображения.

MGIE— MLLM-Guided Image Editing (управляемое редактирование изображений), модель на базе искусственного интеллекта.

MGIE — результат сотрудничества Apple и исследователей из Калифорнийского университета, Санта-Барбара.

Как это работает?

MGIE прост в использовании и гибок в настройке. Нужно дать обычную текстовую инструкцию, как если бы объясняли другому человеку. А MGIE в ответ будет генерировать изображения, вместе с четкими производными инструкциями пользователю. Пользователи также могут оставить отзыв MGIE или запросить изменения.

Редактирование изображений с помощью MGIE: сделать пиццу более здоровой; добавить контраста на фото, убрать женщину на фоне, добавить зеленую страницу на ноутбуке. Источник

В основе MGIE лежат мощные модели ИИ, которые могут обрабатывать как текст (текстовые инструкции пользователей), так и изображения. Запросы пользователей модель переводит в понятный для машины язык.

Например, запрос «сделать небо более синим» MGIE переведет в команду «увеличить насыщенность области неба на 20%».

Что может делать MGIE?

MGIE может обрабатывать широкий спектр сценариев редактирования: от настройки цвета до сложных манипуляций с объектами:

Редактирование на основе инструкций: MGIE может создавать краткие и понятные инструкции, которые эффективно направляют процесс редактирования. Это не только улучшает качество редактирования, но и улучшает общий пользовательский опыт.

Модификация в стиле Photoshop: MGIE может выполнять стандартное редактирование в стиле Photoshop: обрезка, изменение размера, вращение, переворачивание, добавление фильтров. Модель также может применять более сложные изменения, такие как изменение фона, добавление или удаление объектов и смешивание изображений.

Глобальная оптимизация фотографий: MGIE может оптимизировать качество фотографии: менять яркость, контрастность, резкость или цветовой баланс. Модель также может применять художественные эффекты - рисование и карикатура.

Локальное редактирование: MGIE может редактировать определенные области или объекты изображения, например лица, глаза, волосы, одежду и аксессуары. Модель также может изменять атрибуты этих областей или объектов, такие как форма, размер, цвет, текстура и стиль.

Как можно попробовать MGIE?

MGIE доступен как проект с открытым исходным кодом на GitHub, поэтому модель можно интегрировать в приложения или платформы, где требуется редактирование изображений.

Пользователи могут опробовать MGIE онлайн с помощью веб-демо на Hugging Face Spaces.

Почему MGIE так важен?

1) MGIE — это прорыв в области редактирования изображений на базе простых инструкций. Это само по себе является сложной задачей для ИИ: человеческие инструкции могут быть слишком краткими и непонятными, чтобы современные методы могли их уловить и следовать им.

2) Сложная техническая проблема, которую решает MGIE, - это исключение галлюцинаций, которые возникают в работе мультимодальных языковых моделей при несогласованности элементов контента (например, когда текст не соотносится с картинкой).

Мультимодальные большие языковые модели (multimodal LLMs) позволяют работать не только с текстом, но и с другими видами контента: изображения, видео, аудио и другие. Мультимодальные языковые содержат возможности, которые недоступны при использовании только текстовых моделей.

3) MGIE — это не только исследовательское достижение, но и практический и полезный инструмент для различных сценариев. MGIE поможет пользователям создавать, изменять и оптимизировать изображения для личных или профессиональных целей, даст возможность выражать свои идеи и эмоции через изображения и вдохновлять их на творчество.

4) Наконец, MGIE демонстрирует потенциал мультимодальных языковых моделей для работы с изображениями. Хотя MGIE представляет собой серьезный прорыв, впереди еще много работы по улучшению мультимодальных систем ИИ. Темпы прогресса в этой области ускоряются.

Пожалуйста, поддержите меня, поставьте лайк!

Google показал нейросеть Lumiere для генерации видео по текстовому запросу или картинке
Стлизованные видео в формате акварельного рисунка. Источник
Китайский стартап выпустил реставратор изображений

Вот как меняется изображение:

Результат реставрации фото. Слева - исходная картинка, справа - улучшенная. Источник
Стратап-единорог ElevenLabs представил сервис онлайн дубляжа видео и аудио записей

Dubbing Studio может переводить записи на 29 языков (включая русский) за минуты, при этом сохраняя уникальные особенности голосов спикеров (тон, стиль). Нужно лишь загрузить видео или аудио и выбрать язык для перевода.

Интерфейс сервиса для дубляжа. Источник
0
Комментарии
-3 комментариев
Раскрывать всегда