GPT Image 1.5 VS Nano Banana Pro — я ПОЧТИ РАЗОЧАРОВАН в OpenAI

Прикольчик от автора.
Прикольчик от автора.

Вчера вышла GPT Image 1.5, в которой заявлено, что она очень хорошо улучшилась. Мы ждали новую версию почти целый год. И посмотрим, насколько это оправдано.

Якобы это «убийца Nano Banana». Чтобы результат был налицо, я сравню с самой последней версией от Google — Nano Banana Pro. И знаете что? Я почти разочарован в OpenAI.

В прошлом году ChatGPT и их модели действительно всех рвали на раз-два. А сейчас в последнее время разочаровывает. Единственное, что, по моему мнению, самое классное они сделали - это Sora 2. Вот это мы точно не зря ждали, так ещё и совершенно бесплатно.

План тестирования

  1. Визуализация
  2. Тест на логику
  3. Редактирование (обе модели заявлены как хорошо редактирующие)
  4. Сравнение цен API, скорость генерации, качество, артефакты

ВИЗУАЛИЗАЦИЯ - 5 изображений

1. Airbus A380 в грозе над Гималаями

Промпт: "Airbus A380 авиакомпании Emirates пролетает сквозь грозовые облака на закате над Гималаями, на переднем плане видны заснеженные вершины Эвереста и Канченджанги, сквозь разрывы в облаках пробиваются оранжево-фиолетовые лучи солнца, на корпусе самолёта отражаются блики молний, а на крыле заметны капли дождя и следы обледенения, 16:9"

Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: Сразу вижу странные вещи. Почему-то иллюминаторы стоят НА надписи авиакомпании "Emirates". А также почему-то мы сами сидим в самолёте и, видимо, летим прямо на этот A380. Мда уж. Но сам фон очень красивый и выполнен хорошо. Обледенение и капли видны прекрасно.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: Уже получше и хорошо. На крыле видно лёгкое обледенение и капли. Все иллюминаторы и другое стоят на месте. Только если присмотреться, то у хвоста написано "A3880". Сам фон и детализация тоже очень хорошая и красивая.

Победитель: Nano Banana Pro

2. Лего-ёлка на Красной площади

Промпт: "Гигантская ёлка зимой посреди ночи стоит на Красной площади. Всё выполнено в лего-стиле. А всё небо покрыто звёздами и одной круглой луной"

Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: Из лего только ёлка, больше ничего. Вся площадь почему-то пустая, никого нет, но неплохо. Только почему-то единственная ёлка из лего.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: ЕЩЁ ЛУЧШЕ И МАСШТАБНЕЕ. Ёлка, снег, ближайшие деревянные здания мелкие тоже из лего. И ДАЖЕ ЛЕГО-ЧЕЛОВЕЧКИ, каждый между собой контактирует. Небо тоже необычное, эффект прикольный, а также луна пиксельная.

Победитель: Nano Banana Pro без оговорок

3. Заброшенный подводный город

Промпт: "Заброшенный город на дне океана, где небоскрёбы покрыты кораллами и водорослями, сквозь разбитые окна плавают скаты и акулы, затонувшие автомобили висят в толще воды среди стай тропических рыб, солнечные лучи пробиваются сквозь поверхность, создавая световые столбы, 16:9"

Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: НАКОНЕЦ-ТО всё-таки приятно удивил. Тут максимализм на максимум. Глаза разбегаются, тут очень много чего. Много разных видов кораллов, рыб и многое другое.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: На этот раз более кинематографично, как в фильмах про катастрофы. Темно, пару полуразрушенных зданий, пару кораллов.

Победитель: Обе версии очень хороши - ничья

4. Техническая инфографика турбореактивного двигателя

Промпт: "Создай детальную инфографику технического устройства работы турбореактивного двигателя самолёта, где каждая деталь подписана на русском языке с цифровыми обозначениями от 1 до 23, стрелки показывают поток воздуха и топлива, цветовая кодировка температур от синего холодного до красного горячего, стиль технической схемы как в учебнике инженера, 16:9"

Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: Вообще полнейший бред. Почти каждое тут слово - каша и каша, какие-то несуществующие слова. Цифры вообще тоже в кашу превратились, непонятно куда что показывает. В принципе, можно понять, что ChatGPT попытался сделать очень максималистским способом, но это было ошибкой. Так как ничего не понятно, что происходит.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: Просто прелестно. Почти как у учебников. Нету ошибок в словах и различной каши. Почти всё верно показано. Я, конечно, не мастер по самолётам, поэтому мне с этим помогала другая ИИ (она в этом хороша, кажись). Она сказала, что тут в принципе всё хорошо и прекрасно. За что тут докопаться, это то, что здесь всё дублируется. Даже если это моя ИИ ошиблась, то всё равно Nano Banana Pro здесь сделала в два раза лучше, чем GPT Image 1.5.

Победитель: Nano Banana Pro

5. Тысяча машин на горной дороге

Промпт: "Тысяча автомобилей разных марок и цветов одновременно едут вверх по серпантинной горной дороге на рассвете, машины растянулись плотной колонной от подножия до вершины, создавая светящуюся ленту из фар и стоп-сигналов, дорога делает двенадцать крутых поворотов, огибая скалы, на заднем плане видны заснеженные пики гор в утреннем тумане, с высоты птичьего полёта видна вся очередь машин, 16:9"

Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: Вышла какая-то красота. Это очень прекрасно выглядит, и снова повторюсь, красиво.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: Тут более реалистичнее. Дорога не выглядит как качели туда-сюда, а более логично и реалистично. Но сам фон и горы тоже реалистичные и красиво выглядят.

Победитель: Оба - просто потому что ChatGPT сделал очень красиво, а Gemini очень реалистично

ТЕСТ НА ЛОГИКУ — 6 изображений

1. Траектория падения мяча

Промпт: "Нарисуй красную последовательную стрелку, показывающую траекторию, куда должен правильно упасть этот красный мячик"

Исходник.
Исходник.
Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: АХАХАХАХАХ, это что вообще такое. Что за абсурд такой. Логики здесь вовсе нет, это какой-то кошмар. ChatGPT вообще ничего не поняла, провела стрелку снизу вверх сквозь стены до мячика. Хотя всё должно быть наоборот сверху вниз, как мячик должен упасть, не попав в ловушки.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: Всё логично и правильно. Только зачем-то в конце добавил чёрную линию вниз, но всё равно засчитано.

Победитель: Nano Banana Pro без раздумий. ChatGPT вообще странно себя здесь повёл

2. Рука с семью пальцами

Промпт: "Сгенерируй реалистичную человеческую руку с ладонью, обращённой к зрителю, на которой ровно семь пальцев, расположенных анатомически правильно и равномерно"

Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Результат: Оба справились без проблем, тут нечего обсуждать.

Победитель: Оба

3. Клин из 14 журавлей

Промпт: "В ясном голубом небе над полем подсолнухов летит клин из ровно четырнадцати журавлей, птицы расположены в классическом V-образном строю"

Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: Всё правильно и верно.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: То же самое. Только у Nano Banana Pro намного логичнее и реалистичнее. Есть тень, у каждого журавля крылья по-своему распахнуты. А у ChatGPT синхронно. И у Nano Banana Pro подсолнухи реалистичнее стоят и выглядят.

Победитель: Оба

4. Слайд про квантовые компьютеры

Промпт: "Создай слайд презентации о развитии квантовых компьютеров с заголовком и основным текстом из 50 слов, объясняющим принцип работы квантовых вычислений, преимущества перед классическими компьютерами, текущие достижения в области квантовой криптографии, квантовые алгоритмы, проблемы масштабирования и перспективы применения в медицине, финансах и искусственном интеллекте, формат 16:9"

Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: Пу-пу-пу... Сначала всё идёт хорошо, а потом после начала начинается опять бред, и он становится только хуже. Больше нечего сказать.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: Всё с текстом прекрасно. Ошибок никаких нет, всё стоит на своём месте. Никаких проблем нет.

Победитель: Nano Banana Pro.

5. Инфографика о климате на английском

Промпт: "Создай инфографику о климатических изменениях, где весь текст написан на английском языке, заголовок и описание должны содержать минимум 50 английских слов про глобальное потепление, повышение уровня океана, таяние ледников, экстремальные погодные явления и возобновляемые источники энергии, современный дизайн, формат 16:9"

Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: Наконец-то немного удивил. Почти всё написано без ошибок и проблем. Кроме слова "Temperature". Две буквы "ur" превратились в кашу. Также после слова "greenhouse" какое-то непонятное зелёное пятно.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: Вообще нет ни одной проблемы. Тут всё идеально отполировано. Даже у облака "CO2" без проблем написано.

Победитель: Оба. У ChatGPT, конечно, есть одна ошибка в тексте, но зато визуализация на фоне очень красивая и интересная. А у Nano Banana Pro гигантский текст без ошибок, но задний фон скучный

6. Постер с китайскими иероглифами (самый сложный)

Промпт: "Создай постер про историю изобретений где весь текст написан китайскими иероглифами, заголовок и основное описание должны содержать минимум 30 иероглифов рассказывающих про великие изобретения человечества колесо печатный станок электричество интернет и космические технологии, красно-золотая цветовая схема, формат 16:9"

Я, очевидно, вообще никак не знаю китайский язык. Поэтому я обратился за помощью той же ИИ.

Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: Как мне сказала ИИ, китайский язык от слова только название. Единственное, что нормально, это заголовок. А всё остальное - бред с ошибками, как заявляет та ИИ.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: ВООБЩЕ НЕТ НИ ОДНОЙ ОШИБКИ В КИТАЙСКИХ ИЕРОГЛИФАХ, ДАЖЕ ВО СЛОЖНЫХ СЛОВАХ, ЗАЯВЛЯЕТ ТА ИИ. Я в шоке, китайский язык это очень сложно. А Nano Banana Pro с этим справилась на ура.

Победитель: Nano Banana Pro

РЕДАКТИРОВАНИЕ - 3 изображения

1. Преобразование фото в стиль Minecraft

Промпт: "Преобразуй это фото в стиль Minecraft сохранив все основные объекты и их расположение, каждый элемент должен состоять из пиксельных блоков с текстурами игры"

Фото природы из Pinterest.
Фото природы из Pinterest.

Сразу скажу, фото не моё! Я взял из Pinterest у этого человека.

Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: Вау... Но не так уж похоже на Minecraft. На самом деле очень классно и красиво, но тут просто пиксельный стиль, а не как у этой игры. Единственное, что это квадратные деревья из Minecraft, а всё остальное это из пиксельных штук.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: АХАХАХАХ, ЭТО ОЧЕНЬ НЕОЖИДАННО. ТУТ БУКВАЛЬНО Minecraft, как будто это скриншот из игры. Тут все из Minecraft... тут... тут всё при всё из Minecraft. Это буквально реально скриншот, сделанный из этой игры. Я тут очень сильно офигел.

Победитель: Nano Banana Pro, по моему мнению

2. Замена текста на изображении

Промпт: "Найди предложение где написано 'пережила кризис с временным увольнением Альтмана в 2023 году и реорганизацию в 2025-м' и замени его на текст: 'столкнулась с внутренними конфликтами совета директоров и структурными изменениями в управлении', сохранив шрифт стиль и расположение"

Исходник.
Исходник.
Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: Действительно сохранил шрифт и многое другое, но всё сломал. Он действительно заменил весь текст. Но там теперь написано "в 2023-м, став лидером". Хотя этого не должно быть, это всё ломает. И в конце почему-то повторяется текст со сначала. Поэтому ChatGPT снова всё тут сломал.

Nano Banana Pro: Вообще ничего не сделал из-за автоматических фильтров "I can help with editing images of people, but I can't edit some public figures. Is there anyone else you'd like to try?". Это явно недочёт фильтров, они решили, что это редактирование публичных фигур, хотя это просто текст на изображении, а не их фотографии.

Победитель: ChatGPT, поскольку он выполнил задание, даже если результат оказался не совсем верным

3. Создание блюда из продуктов

Промпт: "Используй эти пять продуктов на изображении и создай одно аппетитное блюдо"

Все фото вставлять не буду, но вот что я выбрал:

  • Клубника
  • Банан
  • Шоколад (плитка)
  • Взбитые сливки (в баллончике)
  • Печенье (с шоколадом)
Сгенерированное изображение от GPT Image 1.5
Сгенерированное изображение от GPT Image 1.5

ChatGPT: В принципе, хорошо. Всё понятно.

Сгенерированное изображение от Nano Banana Pro.
Сгенерированное изображение от Nano Banana Pro.

Nano Banana Pro: Тоже выглядит отлично. Даже реалистичнее в норму. Выглядит аппетитно и хорошо, тут тоже всё понятно.

Победитель: Оба

ТЕХНИЧЕСКОЕ СРАВНЕНИЕ

А теперь уже техническое сравнение. Вот она точно убивает GPT Image 1.5.

GPT Image 1.5

  • Скорость генерации: 60-65 сек
  • Максимальное разрешение: до 1.5K
  • Точечное редактирование: да
  • Смешивание изображений: несколько
  • Работа с текстом: улучшена
  • Контроль камеры: базовый
  • Консистентность персонажей: сохраняется
  • Цена API: примерно 1-2 цента за изображение низкого качества, 4-7 центов за среднее и 17-19 центов за высокое качество квадратного изображения, для изображений на входе $8.00-$10.00 за 1 млн токенов
  • Стиль вывода: "фотосессия", контрастный

Nano Banana Pro

  • Максимальное разрешение: до 4K (4096×4096)
  • Скорость генерации: 5-30 сек (базовая), 1-2 мин (Pro)
  • Точечное редактирование: да
  • Работа с текстом: 95%+ точность, 100+ языков
  • Смешивание изображений: до 14 изображений
  • Консистентность персонажей: до 5 персонажей
  • Интеграция с поиском: Google Search
  • Контроль камеры: студийный уровень
  • Стиль вывода: реалистичный, естественный

Цена:

  • Бесплатно: 2-3 изображения/день
  • Google AI Pro: $19.99/мес до 100 изображений/день
  • Google AI Ultra: $249.99/мес до 1000 изображений/день
  • Через API Google Vertex AI: $0.134/изображение (1K-2K разрешение), $0.24/изображение (4K изображений)

ЦЕНЫ И ЛИМИТЫ НА ДАННЫЙ МОМЕНТ! Информация через источники.

МОЙ ВЫВОД

Nano Banana Pro всё таки В ДВА РАЗА ЛУЧШЕ чем GPT Image 1.5.

Честно говоря, я был разочарован за весь этот год. ChatGPT не справляется с созданием качественного текста на русском и других языках. Единственный язык, который даётся ему хорошо, - это английский, и даже на нём иногда возникают ошибки. А вот Nano Banana легко генерирует текст на русском и китайском языках.

Сейчас многие скажут "серьёзно? 14 журавлей. Это же легко им даётся". Но вы здесь глубоко ошибаетесь. Даже обычная версия Nano Banana, она тупо не может справиться. Я её поправлял, и снова двадцать пять, ничего не выходит. Даже с 7 пальцами она не может справиться. Я её попросил, и сгенерировала 5, а не 7. Попробовал в новом чате, теперь она сгенерировала 6 пальцев, а не 7.

Теперь вы понимаете, почему мои промпты такие? Я не сомневался, что они смогут с этим справиться. Однако, возможно, это их слабые стороны. Кто уж знает?

Я думаю, Nano Banana Pro более выгоден по цене, если вы используете его очень часто.

Также GPT Image 1.5 реально чувствуется скорость, но она НЕ ПОДХОДИТ ДЛЯ СЕРЬЁЗНЫХ ПРОЕКТОВ, по моему мнению. Для серьёзных проектов подойдёт Nano Banana Pro, она очень точная и хорошо генерирует изображения. Она очень сильно меня выручает.

А вот GPT Image 1.5 меня, если честно, РАЗОЧАРОВАЛА.

А вы как считаете?

Больше ИИ-новостей, тестов и эксклюзивных материалов - в моём Telegram-канале.

*Ваши результаты могут отличаться в зависимости от промптов, конкретных задач и условий генерации. Качество может варьироваться.

3 комментария