Изумительная DALL-E 3 теперь доступна через API

До недавнего времени основным игроком в области генерации изображений с помощью искусственного интеллекта была компания и её одноимённый проект - Midjourney. Запущенный в июле 2022, продукт стал безумно популярным. Пользователи полюбили его за невероятную реалистичность изображений и готовность справиться с любым, даже очень сложным, с множеством деталей и нюансов заданием. Чего стоит только разошедшаяся на мемы фотография Папы Римского в модном белом пуховике.

Изумительная DALL-E 3 теперь доступна через API

У компании OpenAI, прославившейся благодаря чат-боту ChatGPT, тоже была модель для генерации изображений - DALL-E 2. Однако качество производимого контента и внимательность к содержанию запроса была несравнимо хуже, чем у конкурента.

Так было до выпуска новой версии модели DALL-E 3 в конце лета 2023 года, которая стала сначала доступна узкому кругу "испытателей", а в октябре - всем премиум-пользователям ChatGPT. 6 ноября 2023 года, на первой конференции для разработчиков OpenAI DevDay, было наконец объявлено о начале поддержки DALL-E 3 в API, так что интегрировать новую модель в свои приложения и проекты стало намного проще.

Получить доступ к последним моделям OpenAI API в России для генерации текста и изображений, в том числе DALL-E 3 можно уже сегодня через сервис ProxyAPI.

Что может DALL-E 3?

Проведём небольшое исследование, я попробую создать несколько изображений с разным содержанием и стилем.

Винтажный плакат

Силуэт мужчины, смотрящего на городской пейзаж в сумерках, вид с верхнего этажа пентхауса через огромные окна, выполненный в смелом и ярком стиле винтажного плаката.
Силуэт мужчины, смотрящего на городской пейзаж в сумерках, вид с верхнего этажа пентхауса через огромные окна, выполненный в смелом и ярком стиле винтажного плаката.

Прекрасное атмосферное изображение, все детали присутствуют.

Бумажная аппликация

Зелёный лес, яркие цветы на переднем плане, тигрица и тигрёнок проходят сквозь деревья, в стиле бумажного аппликационного искусства.
Зелёный лес, яркие цветы на переднем плане, тигрица и тигрёнок проходят сквозь деревья, в стиле бумажного аппликационного искусства.

Тигры почему-то тоже зелёные, но так, по-моему, даже лучше.

Пиксель-арт

Вид из центра узкой улицы, слева и справа здания, улица прямая и уходит вдаль до конца обзора в стиле пиксель-арта
Вид из центра узкой улицы, слева и справа здания, улица прямая и уходит вдаль до конца обзора в стиле пиксель-арта

Напоминает игры из 90-х. Отличная работа!

Рисунок

Чёрно-белый рисунок тушью котёнка, играющего с мячом, лежащего на спине
Чёрно-белый рисунок тушью котёнка, играющего с мячом, лежащего на спине

Сначала была попытка сделать рисунок "распушившегося" котёнка, но DALL-E, видимо, пока не знает такой концепции и генерировал скорее какого-то фантастического котёнка с непомерно большой шерстью.

Фотореализм

Фотография с крупным планом викинга-воительницы в шлеме, лицо выражает гнев, ярость, рот широко открыт, она кричит, готова к атаке, на фоне размытые языки пламени
Фотография с крупным планом викинга-воительницы в шлеме, лицо выражает гнев, ярость, рот широко открыт, она кричит, готова к атаке, на фоне размытые языки пламени

Подсмотрел такой же промпт (запрос) у кого-то на Midjourney, результат DALL-E 3 ничем не хуже. Особенно мне понравился фон: капли дождя и другие воины, серое небо, в дополнение к запрошенным изначально языкам пламени.

Логотип

Простой векторный логотип с лисой и пиццей
Простой векторный логотип с лисой и пиццей

DALL-E 3 отлично рисует логотипы и иконки. Я не усложнял запрос в этот раз, но возможности практически ничем не ограничены, можно и текст вставлять в картинку, и выводить одноцветное изображение - всё, для того чтобы потом использовать для своего продукта или компании.

3-D Рендеринг

3D-рендер стеклянного снежного шара, внутри которого играет рок-группа, вокруг гроза и молнии
3D-рендер стеклянного снежного шара, внутри которого играет рок-группа, вокруг гроза и молнии

Какая внимательность к деталям! Всегда хотел такой шар.

На мой взгляд, у Midjourney появился очень серьёзный конкурент. По некоторым запросам DALL-E 3 справляется даже лучше. Многими пользователями отмечено беспрецедентное внимание к деталям, которые Midjourney порой может и упустить.

Для разработчиков это, пожалуй, вообще единственный вариант интегрировать генерацию изображений в свои приложения или проекты, так как у Midjourney до сих пор нет публичного API.

В России доступ заблокирован как к ChatGPT, так и к API. Но с помощью сервиса ProxyAPI можно получить доступ даже несмотря на это.

44
2 комментария

Фотореализм у него конечно еще хромает

2
Ответить

Да, есть смысл сравнивать по реалистичности в сравнении с фотографиями..

Ответить