Apple выпускает модель ИИ, которая может редактировать изображения на основе текстовых команд. Бесплатная демка

Модель под названием MLLM-Guided Image Editing (MGIE), которая использует мультимодальные модели большого языка (MLLM) для интерпретации текстовых команд при манипулировании изображениями.Простыми словами это инструмент, который имеет возможность редактировать фотографии на основе текста, введенный пользователем.

MLLM способны преобразовывать простые или двусмысленные текстовые подсказки в более подробные и четкие инструкции, которым может следовать сам фоторедактор. Например, если пользователь хочет отредактировать фотографию пиццы пепперони, чтобы «сделать ее более полезной», MLLM может интерпретировать это как «добавить овощную начинку» и отредактировать фотографию как таковую.

Помимо внесения серьезных изменений в изображения, MGIE также может обрезать, изменять размер и вращать фотографии, а также улучшать их яркость, контрастность и цветовой баланс с помощью текстовых подсказок. Он также может редактировать определенные области фотографии и может, например, изменять волосы, глаза и одежду человека на ней или удалять элементы на заднем плане.

Как отмечает VentureBeat , Apple выпустила модель через GitHub , но желающие также могут опробовать демо-версию , которая в настоящее время размещена на Hugging Face Spaces. Apple еще не сообщила, планирует ли она использовать то, чему она научилась в результате этого проекта, в инструменте или функции, которую можно будет включить в любой из своих продуктов.