Вышла убийца Nano Banano от Open AI - GPT Image 1.5. И это... провал?

Вот и релизнулась громкая новая генерация картинок в ChatGPT, на которую OpenAI делают большую ставку - GPT-IMAGE-1.5. И нам обещали много интересного. Ну, давайте посмотрим, что у них получилось и сравним с главным конкурентом..

А обещали, что это новый флагманский генератор картинок: точнее правит загруженные фото, меняет только то, что попросили, и лучше сохраняет детали вроде света, композиции и внешности людей. Плюс генерация до 4x быстрее.

По качеству и управляемости обещания такие: лучше следует инструкциям (в том числе в сложных сценах, где важны связи между объектами), лучше рисует текст, включая мелкий и плотный, и в целом чаще выдает готовый результат (например, с кучей маленьких лиц и более естественным видом).

В интерфейсе добавили отдельное место для картинок в ChatGPT (в боковой панели): пресеты, трендовые подсказки, и опция разово загрузить свою похожесть, чтобы использовать ее дальше в новых генерациях. Также говорят, что можно запускать новые генерации, пока предыдущие еще считаются.

Для разработчиков это выходит в API как GPT Image 1.5: те же улучшения по редактированию и сохранению исходника, более стабильное сохранение логотипов и бренд-элементов, упор на маркетинг и ecommerce (варианты, сцены, ракурсы из одного исходного изображения). Еще заявили, что входные и выходные изображения в 1.5 на 20% дешевле, чем в GPT Image 1.

Давайте протестируем возможности новой модели в разных ситуациях и сравним с главным конкурентом - Nano Banano PRO.

🔥🔥🔥Кстати, все генерации я тестировал на платформе SYNTX AI. А по промокоду NEIROSKUF, вы заберете горячую скидку в 15% на любой тариф. Реально - все нейросети в одном интерфейсе, рекомендую!

Промпт:

Создай фотореалистичный винтажный редакционный портрет в стиле 1970-х. Используй прикрепленное фото человека как жесткий референс лица: сохрани идентичность, форму глаз, носа, губ, линию челюсти, расстояние между глазами, тон кожи, прическу и возраст. Сцена: паддок гран-при 1976 года. Герой - пилот ретро болида, стоит рядом со своей машиной, шлем снят и в руке, второй рукой понтово опирается на кокпит. Одежда: винтажный гоночный комбез 70-х, слегка потертый, без современных брендов и без читаемых логотипов. Свет: мягкий теплый, как вечерние прожекторы в боксах. Цвет: теплые землистые тона. Камера: 85mm, малая глубина резкости, акцент на глазах, легкая пленочная зернистость, натуральная кожа, без пластика и без пересглаживания. Композиция 3:2, качество 4K

Что мы видим: GPT Image 1.5 очень четко следует условиям промта и старается максимально перенести референс, что в живой сцене смотрится более искусствено. Nano Banano - напротив, добавляет множество мелких деталей. Тут и потертость комбеза, и растрепанные волосы, и обилие бликов. Картинка выглядит в разы детализированнее.

Промт:

Использовать прикрепленное фото как основной референс. Лицо, мимику, возраст, цвет кожи и все ключевые черты внешности сохранить 1 к 1, без изменения формы лица, глаз, носа, губ, бровей и пропорций. Цвет и форма волос, бороды или растительности на лице, если есть, сохраняются точно как на референсе. Никаких "улучшений" или стилизаций черт, меняются только ракурс, сцена и одежда. Гиперреалистичное селфи в стиле GoPro, снятое широкоугольным объективом сверху. Персонаж с референса в ярком оранжевом комбинезоне и защитном шлеме для экстремальных видов спорта. Камера немного выше уровня головы, ощущение, что она закреплена на шлеме или держится на вытянутой руке. Лицо крупным планом, на фоне видно масштабный пейзаж далеко внизу. Внизу под персонажем горы, сверкающее на солнце озеро и зеленые долины. Сильное ощущение высоты, полета и экстремального момента. Ветер развевает волосы или шерсть персонажа - именно того цвета, длины и фактуры, как на прикрепленном фото. Отдельные пряди выбиваются в воздухе, усиливая чувство скорости и ветра. Выражение лица радостное и воодушевленное, чистая эйфория от экстремального спорта. Улыбка, приподнятые уголки губ, живые глаза, ощущение свободы и адреналина. Хорошо видна подробная система страховки и экипировки: ремни, карабины, крепления, элементы привязи и снаряжения проработаны детально. Освещение яркое и насыщенное, динамичный дневной свет, выразительные блики на шлеме, комбинезоне и металлических деталях. Цвета сочные и контрастные, чистое небо или легкая дымка на горизонте. Стиль 8K extreme sports photography: гиперреализм, высокая детализация кожи, ткани, пластика и металла, легкая хроматическая аберрация по краям, характерные искажения широкоугольного объектива и сильный эффект присутствия в кадре.

Что мы видим: Опять же, Open AI натягивает глянец референса на изображение и мы получаем стандартное селфи и теряем эмоцию. Ну и, опять, детали, да.

Промт:

Создай ленту из 9 изображений для этого продукта в той же эстетике. Используй разные локации, ракурсы и композиции, добавляя людей, животных, природу и различные окружения, сохраняя при этом единый визуальный стиль.

Что мы видим: Да, у Nano Banano определенно есть проблемы с сочетанием реализм+киберпанк, поэтому у GPT Image получились более интересные варианты генерации, но, тем не менее, множественность художественных надписей на кириллице мы пока не вывозим.

Промт:

Отредактируй фото: сохрани лицо. Сделай сцену с 4 клонами одного человека в одной комнате, разные позы и одежда, реалистичные тени и отражения, одинаковая личность. Камера 28mm, интерьер, мягкий свет. 16:9.

Что мы видим: Да, GPT Image смогла клонировать личность с референса, но, по сути, с задачей не справилась в сравнении с Nano Banano. Тут реально - все позы разные, одежда разная + отражение в зеркале завезли.

Промт:

Create a one page UI style guide for the real estate brand "Раменский Квартал" in Ramenskoye, Russia. Very important: Use and unify the visual decisions from ALL previously generated designs for this brand: - Header for "Раменский Квартал" - Hero section with form "Подберем квартиру в Раменском за 7 дней" - "Актуальные объекты в Раменском" properties grid - "Как мы работаем" 3 step process section - "Почему нам доверяют в Раменском" social proof section - FAQ section - "Контакты" block with map and footer Analyze these previous results and extract: - Common colors - Typography choices - Button styles - Card layouts - Form field styles - Spacing and grid logic Style guide page must be a single 1440 px wide frame that includes: 1) Color palette - 6 color swatches with HEX codes: - Primary navy used in previous blocks - Gold accent used in CTAs and highlights - Light gray background color - Main text color - Positive color (for success states) - Error color (for warnings or validation) - Russian labels under each swatch: "Основной", "Акцент", "Фон", "Текст", "Успех", "Ошибка" 2) Typography scale - Heading styles H1, H2, H3 with font names, sizes and line heights, using real Russian examples from the landing: H1: "Подберем квартиру в Раменском за 7 дней" H2: "Актуальные объекты в Раменском" H3: "Почему нам доверяют в Раменском" - Body text and small caption style with short Russian sample paragraphs - All presented in one clean column with clear hierarchy 3) UI elements - Primary button style used before with label "Оставить заявку" - Secondary button style with label "Подробнее" - Text field from forms with label "Телефон" - Example of a dropdown or select field - Tag or pill style used for badges "Новостройка" и "Вторичка" 4) Cards and components - Small property card based on the "Актуальные объекты" section: photo placeholder, title, parameters line, price, badge - Small stat card from social proof, for example "200+ сделок" - One FAQ accordion item in closed state and one in opened state 5) Spacing and grid - Show the basic spacing system you used across previous designs, for example 8, 16, 24, 32 px etc as small blocks with labels - Short note in Russian about сетка и отступы для лендинга шириной 1440 px Overall style: - Looks like a professional Figma style guide page for this exact landing - Clean white background, section titles and descriptions in Russian - All Russian text must be sharp, readable and not distorted Output only this style guide page as a single frame, 2K, 16:9.

Что мы видим: GPT Image 1.5 выдала очень хаотичный результат с поплывшими словами. И, опять, не справилась с промтом, т.к. точно был указан заголовок.

Промт:

Создай лист стикеров на одну тему: Нейроскуф. - На листе должно быть 10-15 отдельных наклеек разного размера. - Каждая наклейка - отдельный персонаж, предмет или мини-сцена, отражающая тему. - Стиль - яркий, контурный, с белым обводом вокруг каждого стикера. - Фон листа - светлый, нейтральный, с легкой текстурой бумаги. - Стикеры должны хорошо смотреться как в цифровом виде, так и в печати.

Что мы видим: Вот мы и подбираемся к самому главному. Nano Banano - реально думающая модель. Причем, обе прочитали суть бренда "Нейроскуф", связали его с ИИ тематикой, но большинство стикеров GPT Image 1.5 - вообще мимо.

Промт:

Создай один вертикальный кейс-плакат, который показывает историю трансформации бизнеса клиента. Бренд "Честная лапша". Структура плаката: - Блок "До" - визуально показать старую ситуацию: старый сайт, бардак в данных, офлайн хаос и т.п. - Блок "Что сделали" - показать твое решение: новый продукт, процесс, инструмент. - Блок "После" - показать результат: рост, порядок, спокойная команда, счастливые клиенты. Требования: - В каждом блоке своя мини сцена, но стиль, цвета и шрифты - одинаковые. - Оставь место под короткие текстовые подписи в каждом блоке. - Общий стиль - как у дорогих бизнес презентаций, без визуального шума.

Что мы видим: Nano Banano подошла к задаче более комплексно, описала весь процесс и дала соответствующие визуализации.

Промт:

Создай постер под видеокассету VHS с "забытой" телепередачей конца 80-х. - Название передачи должно звучать странно и слегка тревожно, но не открыто ужасно. - На обложке - ведущий в старомодном костюме, стоящий в пустой студии с неестественно ярким светом. - Добавь текстовые элементы: расписание эфира, слоган передачи, вымышленный логотип телеканала. - Поверх всего наложи артефакты: выцветшие цвета, потертости, наклейки с рукописными подписями. - В целом картинка должна вызывать ощущение "что-то тут не так".

Что мы видим: Задача на вкусовщину. В данном контексте - GPT Image 1.5 прошла тест на олдовость.

Промт:

Преобразуй человека с загруженного фото в персонажа из альтернативной реальности. - Сохрани ключевые черты лица и фигуры, чтобы персонаж был узнаваем. - Выбери сеттинг альтернативной реальности: киберпанк мегаполис, фэнтези королевство, постапокалипсис, стимпанк и т.д. - Одежду, аксессуары и окружение сделай полностью соответствующими этому сеттингу. - Стиль - высокий уровень детализации, обложка комикса или плаката к фильму.

Что мы видим: Обе модели справились с задачей, но, опять же, GPT Image 1.5 нагородил деталей ради деталей. У Nano всё органично и просто идеально вписывается в композицию.

Промт:

Расширь это фото до формата 16:9 под обои рабочего стола, аккуратно как будто камера отъехала назад. Дострой сцену слева и справа так, чтобы она логично продолжала исходный фон. Сохрани освещение, погоду, цветовую температуру и текстуры. Если по краям обрезаны объекты (плечо, ветка, край здания) - корректно дорисуй их продолжение. Центральную часть исходного кадра не меняй и не искажай.

Что мы видим: GPT Image 1.5 из раза в раз сопротивляется органичной детализации изображения.

Промт:

Сделай вирусный превью-кадр для видео, используя человека с загруженного изображения (Изображение 1). - Лицо и внешность оставь такими же, как на фото, но сделай выражение лица очень удивленным и воодушевленным. - Размести человека слева в кадре, пусть он указывает пальцем вправо. - Справа поставь крупный, красиво снятый объект: [укажи, что именно - например, "бургер", "упаковку моего продукта", "экран с графиком"]. - Добавь толстую ярко-желтую стрелку от пальца к этому объекту. - В центр или чуть правее помести огромный поп-арт текст: короткий кликбейтный заголовок вроде "За 3 минуты!" или свой вариант. Текст с толстым белым контуром и тенью. - Фон - размытая яркая студия или кухня с высокой насыщенностью и контрастом.

Что мы видим: Каждая модель справилась с задачей, но Nano Banano PRO придумала более живое решение и не перенесла одежду.

По плюсам модель правда выросла. Во-первых, ушла эта вечная желтизна и грязный оттенок, из-за которого картинка выглядела как фильтр по умолчанию. Во-вторых, лица стали стабильнее: меньше странных асимметрий, реже ломает глаза и зубы, кожа не превращается в пластик после первой же попытки. И отдельно приятно, что с текстом наконец стало жить: короткие надписи, вывески, подписи на упаковке или интерфейсные элементы теперь чаще выглядят как текст, а не как набор похожих букв. В задачах в целом слушается неплохо: попросил поменять конкретную деталь - чаще меняет ее, а не переделывает все подряд.

Минусы при этом тоже хорошо видны, если рядом поставить Nano Banano PRO. На примере GPT Image 1.5 ощущение такое, что она больше рисует по инструкции, чем решает задачу целиком. Nano Banano PRO чаще сама додумывает композицию, понимает, какой элемент куда поставить, где уместнее акцент, где нужен воздух, где лучше другой ракурс или свет. Она все еще лучше держит общий контекст, особенно когда промпт длинный и там много условий: персонажи, окружение, атрибуты, текст, стиль, ограничения по цветам, плюс еще какие-то мелкие требования. У GPT Image 1.5 в таких промптах начинает плыть логика: то забывает часть условий, то путает элементы местами, то упрощает сцену, лишь бы собрать хоть что-то. И еще один заметный момент - детализация. У Nano Banano PRO чаще есть мелкие фактуры, аккуратные элементы, живые мелочи, которые делают картинку дороже. У GPT Image 1.5 это чаще сглажено и обобщено, особенно если просишь много объектов в кадре.

По скорости я разницы почти не заметил. Может, где-то она и быстрее в среднем, но в реальной работе это не тот фактор, который перевешивает качество и управляемость.

Зато по рынку перспектива есть: свое место модель займет. У нас особенно - из-за простого входа и привычки людей думать "чат гпт = нейросеть". Открыл, написал, получил. И если по лимитам генераций они не прижмут, как часто бывает у Nano Banano, это станет очень весомым плюсом: когда можно спокойно перебрать 10-20 вариантов и допилить правками, продукт резко становится полезнее.