DALLE -2. Что может и не может делать нейросеть будущего?

Нейросеть DALL-E 2 пугает своими темпами развития. Вы можете получить профессионально выглядящее изображение с помощью всего нескольких слов. Но действительно ли она так совершенна или еще есть над чем работать?

Авторы каналов “Нейросети и Блендер” и Denis Sexy IT показывают, как с помощью искусственного интеллекта дорисовывать классические картины
Авторы каналов “Нейросети и Блендер” и Denis Sexy IT показывают, как с помощью искусственного интеллекта дорисовывать классические картины

DALL-E 2 — это новый алгоритм нейронной сети, который создает картинку из предоставленной вами короткой фразы или предложения. Программа, анонсированная исследовательской лабораторией искусственного интеллекта OpenAI в апреле 2022, сейчас доступна ограниченному кругу лиц по подписке. Это объясняется ограниченными мощностями серверной инфраструктуры. Когда ждать общедоступности – пока неизвестно.

Илья Суцкевер, соучредитель и главный научный сотрудник OpenAI, рассказал, что DALL-E 2 стал важным шагом на пути к цели OpenAI по созданию искусственного общего интеллекта (AGI).

AGI - это единое ПО для искусственного интеллекта, которое может достигать производительности на уровне человека или даже выше в широком спектре разрозненных задач. По словам Суцкевера, AGI должен обладать «мультимодальным» концептуальным пониманием — быть в состоянии связать слово с изображением или набором изображений и наоборот. По его словам, DALL-E 2 — это попытка создать ИИ с таким пониманием.

DALL-E 2 опережает существующие технологии генерации изображений. Ее преимущества перед первой версией DALL-E:

· более высокое разрешение изображений

· обработка запросов более чем на 107 языков мира, в том числе на русский

· высокая точность распознавания запроса

· можно задавать цветовые фильтры и стиль изображения

· может взять существующее изображение в качестве входных данных и создать его творческую вариацию

· возможность дорисовывать загруженное изображение

Создатели приводят пример работ двух версий нейросети. Слева изображение, которое выдавалось по запросу в DALL-E, а справа- в новой версии от 6 апреля 2022.

DALLE -2. Что может и не может делать нейросеть будущего?

Что она может и не может сделать?

DALL-E 2 кажется значительным достижением. Это не просто создание неопределенных художественных образов или реалистических образов в нескольких вариантах . Она производит множество видов сложных, высококачественных реалистичных и художественных изображений.

<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fitsalive.studio%2F&postId=499846" rel="nofollow noreferrer noopener" target="_blank">Мы</a> попробовали сами сгенерировать изображения в DALL-E в разных стилях
Мы попробовали сами сгенерировать изображения в DALL-E в разных стилях

Первоначальные изображения, которыми поделился OpenAI создавали впечатление, что нейросеть может делать, что угодно. Даже такие вещи, как «Подводный снимок головы козленка, поедающего морковь, водяные пузыри, частицы, чрезвычайно детальное студийное освещение»:

Подводный снимок головы козленка, поедающего морковь, водяные пузыри, частицы, чрезвычайно детальное студийное освещение
Подводный снимок головы козленка, поедающего морковь, водяные пузыри, частицы, чрезвычайно детальное студийное освещение

DALL-E 2 также упрощает редактирование изображения. Пользователь может просто поместить рамку вокруг части изображения, которую он хочет изменить, и указать изменение, которое он хочет сделать. Вы можете, например, поместить рамку вокруг скафандра космонавта и ввести «сделать скафандр желтым», и он будет преобразован без изменения остальной части изображения. Кроме того, DALL-E 2 может создавать одно и то же изображение в широком диапазоне стилей, которые пользователь также может указывать в виде обычного текста.

Стоит отметить, что не все результаты так хороши. Сотни людей вводят в DALL-E всевозможные забавные и креативные подсказки. Только часть из них дает потрясающие результаты, многие выглядят не очень. Но только лучшие результаты становятся популярными и вирусными в сети.

Команда DALL·E разработали дополнительный функционал Outpainting, который «дорисовывает» фон изображения

Недостатки

DALL-E 2 все еще далек от совершенства. Иногда система не может отобразить детали в сложных сценах. Некоторые эффекты освещения и тени будут немного неправильными, или слиты границы двух объектов, которые должны быть различимы. Кроме того, оно хуже, чем некоторые другие мультимодальные программы ИИ, понимает «связывающие атрибуты». Дайте ему инструкцию «красный куб поверх синего куба», и он будет предлагать варианты, в которых красный куб появится под синим кубом.

OpenAI очень открыто рассказал о многих проблемах с DALL-E 2 в их первоначальной оценке недоработок.

Как это работает?

Вокруг программного обеспечения ИИ много мистики. Но, как говорит первый автор DALL-E, метод концептуально достаточно прост - это в основном алгоритм статистической выборки . Это своего рода подгонка кривых и выборка моделей, которым можно научиться на уроках статистики.

Тем не менее, особенности «просты» только в том случае, если вы в курсе последних разработок в области генерации нейронных изображений. Хотя эти методы просто подгоняют данные, они подгоняют данные в многомерных пространствах, которые наполнены вариантами современных алгоритмов. Они включают множество параметров модели, непостижимо большие наборы данных, тщательное проектирование и ошеломляющее время вычислений.

Алгоритм работы DALL-E 2

Исследователи OpenAI создали DALL-E 2 из огромной коллекции изображений с подписями. Они собрали некоторые изображения в интернете и лицензировали другие. Среди них был отфильтрован откровенный контент, включающий в себя изображения сексуального и насильственного характера, а также изображения некоторых символов ненависти.

Использование DALL-E 2 очень похоже на поиск изображения в гугл: вы вводите короткую фразу в текстовое поле, и оно возвращает шесть изображений.

Но вместо того, чтобы искать в сети, программа создает шесть совершенно новых изображений, каждое из которых отражает какую-то версию введенной фразы. Например, если задать DALL-E 2 текстовую подсказку «кошки в шапках Дево», она выдавала 10 изображений в разных стилях.

Кошки в шапках Дево
Кошки в шапках Дево

Почти все они могли сойти за профессиональные фотографии или рисунки. Хотя алгоритм не совсем уловил «шляпу Дево» — странные шлемы, но головной убор был близок к этому.

За последние несколько лет небольшое сообщество художников использовало алгоритмы нейронных сетей для создания произведений искусства. Многие из этих работ обладают отличительными чертами, почти похожими на настоящие изображения, но со странными искажениями пространства — эдакий киберпанк-кубизм. Самые современные системы преобразования текста в изображение часто создают фантастические образы далекие от реальности.

Vadim Epstein. Experimental music video. Generated by Illustrip3D [own text-to-video tool], based on the Litany of Fear, drawn in 42 art styles.

DALL-E 2 предлагает значительный скачок в качестве и реалистичности изображений. Он также может с удивительной точностью имитировать определенные стили. Если вам нужны изображения, похожие на настоящие фотографии, программа создаст шесть реалистичных изображений. Если вам нужны доисторические наскальные рисунки Шрека, он создаст шесть изображений Шрека, как если бы они были нарисованы доисторическим художником.

DALL·E 2 Explained

Удивительно, что алгоритм обрабатывает запрос меньше чем за минуту. Не все изображения будут идеальным попаданием в вашу идею. Но сегодня нет другого способа так же быстро выдавать столь отличные результаты — даже путем найма художника. И, иногда, самые неожиданные результаты являются лучшими.

Легко представить, как эти инструменты изменят то, как люди создают изображения и общаются, будь то мемы, поздравительные открытки, реклама, мода, архитектура и искусство.

Отличный пример использования морфа для создания контента к бренду одежды/DALLE-2

Сферы применения

Сами разработчики утверждают, что в будущем возможны коммерческие и некоммерческие варианты использования. Возможные сферы применения:

· Обучение. Например, при создании иллюстрации для объяснения концепций

· Искусство/творчество. Как инструмент мозгового штурма или как часть более крупного рабочего процесса для художественного воображения

· Маркетинг. Создание креатива или «помещение» людей/предметов в определенные условия и пространства

· Архитектура/недвижимость/дизайн. Как часть крупного рабочего процесса для разработки дизайнерских идей

· Исследования. Иллюстрирование и объяснение научных концепций

Архитектурные изображения художника Марио Клингеманна с палатками бездомных людей.

Программное обеспечение для искусственного интеллекта развивается так быстро, что в нем постоянно присутствует техническая и художественная новизна. Кажется, что каждый год появляется возможность исследовать новую захватывающую технологию, каждая из которых мощнее предыдущей, и каждая, казалось бы, готова изменить искусство и общество. Увидим, так ли это, уже в ближайшие годы.

2121
9 комментариев

Комментарий недоступен

3
Ответить

Это не отменяет того, что нейросети могут выполнять конкретные точечные задачи и порой даже интереснее человека + в разы быстрее и дешевле. Да какая разница как это называется. Чем человеческий интеллект отличается от искусственного? Не существует в природе точно описания интеллекта. Нужно исходить из этого.

3
Ответить

Комментарий недоступен

1
Ответить

Есть только 1 вопрос: где потыкать эту штуку?

Ответить

Сравните с stable diffusion

Ответить

Stable diffusion слишком сырой, я его мучаю уже неделю. Ничего внятного не выходит, более 100 изображений сделал.

Ответить