Apple выпустила сервис MGIE для редактирования изображений

Инновационное решение под названием «MGIE» позволяет редактировать изображения с помощью простых текстовых инструкций.

Доступно как редактирование картинки целиком, так и ее отдельной области. Можно менять яркость, резкость, применять художественные эффекты или менять размер изображения.

MGIE— MLLM-Guided Image Editing (управляемое редактирование изображений), модель на базе искусственного интеллекта.

MGIE — результат сотрудничества Apple и исследователей из Калифорнийского университета, Санта-Барбара.

Как это работает?

MGIE прост в использовании и гибок в настройке. Нужно дать обычную текстовую инструкцию, как если бы объясняли другому человеку. А MGIE в ответ будет генерировать изображения, вместе с четкими производными инструкциями пользователю. Пользователи также могут оставить отзыв MGIE или запросить изменения.

Редактирование изображений с помощью MGIE: сделать пиццу более здоровой; добавить контраста на фото, убрать женщину на фоне, добавить зеленую страницу на ноутбуке. <a href="https://venturebeat.com/ai/apple-releases-mgie-a-revolutionary-ai-model-for-instruction-based-image-editing/" rel="nofollow noreferrer noopener" target="_blank">Источник</a><br />
Редактирование изображений с помощью MGIE: сделать пиццу более здоровой; добавить контраста на фото, убрать женщину на фоне, добавить зеленую страницу на ноутбуке. Источник

В основе MGIE лежат мощные модели ИИ, которые могут обрабатывать как текст (текстовые инструкции пользователей), так и изображения. Запросы пользователей модель переводит в понятный для машины язык.

Например, запрос «сделать небо более синим» MGIE переведет в команду «увеличить насыщенность области неба на 20%».

Что может делать MGIE?

MGIE может обрабатывать широкий спектр сценариев редактирования: от настройки цвета до сложных манипуляций с объектами:

Редактирование на основе инструкций: MGIE может создавать краткие и понятные инструкции, которые эффективно направляют процесс редактирования. Это не только улучшает качество редактирования, но и улучшает общий пользовательский опыт.

Модификация в стиле Photoshop: MGIE может выполнять стандартное редактирование в стиле Photoshop: обрезка, изменение размера, вращение, переворачивание, добавление фильтров. Модель также может применять более сложные изменения, такие как изменение фона, добавление или удаление объектов и смешивание изображений.

Глобальная оптимизация фотографий: MGIE может оптимизировать качество фотографии: менять яркость, контрастность, резкость или цветовой баланс. Модель также может применять художественные эффекты - рисование и карикатура.

Локальное редактирование: MGIE может редактировать определенные области или объекты изображения, например лица, глаза, волосы, одежду и аксессуары. Модель также может изменять атрибуты этих областей или объектов, такие как форма, размер, цвет, текстура и стиль.

Как можно попробовать MGIE?

MGIE доступен как проект с открытым исходным кодом на GitHub, поэтому модель можно интегрировать в приложения или платформы, где требуется редактирование изображений.

Пользователи могут опробовать MGIE онлайн с помощью веб-демо на Hugging Face Spaces.

Почему MGIE так важен?

1) MGIE — это прорыв в области редактирования изображений на базе простых инструкций. Это само по себе является сложной задачей для ИИ: человеческие инструкции могут быть слишком краткими и непонятными, чтобы современные методы могли их уловить и следовать им.

2) Сложная техническая проблема, которую решает MGIE, - это исключение галлюцинаций, которые возникают в работе мультимодальных языковых моделей при несогласованности элементов контента (например, когда текст не соотносится с картинкой).

Мультимодальные большие языковые модели (multimodal LLMs) позволяют работать не только с текстом, но и с другими видами контента: изображения, видео, аудио и другие. Мультимодальные языковые содержат возможности, которые недоступны при использовании только текстовых моделей.

3) MGIE — это не только исследовательское достижение, но и практический и полезный инструмент для различных сценариев. MGIE поможет пользователям создавать, изменять и оптимизировать изображения для личных или профессиональных целей, даст возможность выражать свои идеи и эмоции через изображения и вдохновлять их на творчество.

4) Наконец, MGIE демонстрирует потенциал мультимодальных языковых моделей для работы с изображениями. Хотя MGIE представляет собой серьезный прорыв, впереди еще много работы по улучшению мультимодальных систем ИИ. Темпы прогресса в этой области ускоряются.

Пожалуйста, поддержите меня, поставьте лайк!

11
Начать дискуссию