Толстой в наушниках и Гагарин с Армстронгом на Луне: что может новая модель для генерации изображений в чат-боте Grok

Протестировали некоторые функции и собрали примеры генераций.

  • 9 декабря 2024 года xAI представила новую модель для генерации изображений под кодовым названием Aurora в чат-боте Grok, который работает внутри социальной сети X. Создать изображение можно бесплатно. Модель одновременно выдаёт четыре варианта картинки.
Скринкаст vc.ru
  • В Grok отсутствуют ограничения на генерацию реальных личностей, как, например, в нейросети Midjourney, поэтому он может создавать изображения политиков и знаменитостей. В датасете есть даже Виктор Цой и Лев Толстой.
  • Модель может выполнить запрос с конкретными деталями (в том числе на русском), а потом скорректировать изображение.
Запрос: «Нарисуй русского писателя Льва Толстого, который слушает музыку в белых AirPods»
Запрос: «Нарисуй русского писателя Льва Толстого, который слушает музыку в белых AirPods»
Запрос: «Замени одежду Толстого на красную толстовку»
Запрос: «Замени одежду Толстого на красную толстовку»
  • Можно попросить добавить на фотографию других персонажей.
Запрос: Draw cosmonaut Yuri Gagarin / Нарисуй космонавта Юрия Гагарина
Запрос: Draw cosmonaut Yuri Gagarin / Нарисуй космонавта Юрия Гагарина
Запрос: Add Neil Armstrong standing next to Gagarin and smiling / Добавь Нила Армстронга, который стоит рядом с Гагариным и улыбается
Запрос: Add Neil Armstrong standing next to Gagarin and smiling / Добавь Нила Армстронга, который стоит рядом с Гагариным и улыбается
  • Grok хуже справился с изображением людей на общем плане. Пример генерации, где заметны искажённые лица и непрорисованные пальцы.
Запрос: Draw Wide shot of Disneyland with lots of happy kids running around and eating ice cream / Общий план Диснейленда, много счастливых детей, которые бегают и едят мороженое
Запрос: Draw Wide shot of Disneyland with lots of happy kids running around and eating ice cream / Общий план Диснейленда, много счастливых детей, которые бегают и едят мороженое
  • Нейросеть может сгенерировать надпись на изображении, но не так чётко, как другие модели, в том числе Flux.
  • При попытке добавить надпись на русском, нейросеть сначала убрала замок Диснейленда.
Запрос: Replace the word "Disneyland" with sign "Остров развлечений" / Замени слово "Диснейленд" на надпись "Остров развлечений"
Запрос: Replace the word "Disneyland" with sign "Остров развлечений" / Замени слово "Диснейленд" на надпись "Остров развлечений"
Запрос: Add the pink Disneyland castle in the background, keep the sign "Остров развлечений" /«Добавь розовый замок Диснейленда на фоне и оставь надпись "Остров развлечений"»
Запрос: Add the pink Disneyland castle in the background, keep the sign "Остров развлечений" /«Добавь розовый замок Диснейленда на фоне и оставь надпись "Остров развлечений"»
  • Grok также можно попросить создать изображения в 2D-стилях, например в аниме.
Запрос: Draw a girl sitting at a table in a cafe, anime style / Нарисуйте девушку, сидящую за столиком в кафе, стиль аниме
Запрос: Draw a girl sitting at a table in a cafe, anime style / Нарисуйте девушку, сидящую за столиком в кафе, стиль аниме

Примеры генераций пользователей сети X с помощью Grok

Джон Леннон и Пол Маккартни. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2Fhistoryrock_%2Fstatus%2F1867152798024167832&postId=1718462" rel="nofollow noreferrer noopener" target="_blank">Rock History</a>
Джон Леннон и Пол Маккартни. Источник: Rock History
Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2F0x_ntv%2Fstatus%2F1869767567956722033&postId=1718462" rel="nofollow noreferrer noopener" target="_blank">Pé Ngốk Ngếk</a>
Источник: Pé Ngốk Ngếk
Камала Харрис уводит Дональда Трампа. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fx.com%2FYourAnonNews%2Fstatus%2F1824117092880109818&postId=1718462" rel="nofollow noreferrer noopener" target="_blank">Anonymous</a>
Камала Харрис уводит Дональда Трампа. Источник: Anonymous
Изображения Grok, анимированные в других сервисах. Источник: Cosmic Madness
  • Aurora — это авторегрессионная модель, которая генерирует изображения из готовых фрагментов, в отличие от диффузионных моделей, которые создают изображения из случайного шума.
Генерация диффузионной модели. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fdeveloper.nvidia.com%2Fblog%2Fimproving-diffusion-models-as-an-alternative-to-gans-part-1%2F%3Ftrk%3Darticle-ssr-frontend-pulse_little-text-block&postId=1718462" rel="nofollow noreferrer noopener" target="_blank">Nvidia</a>
Генерация диффузионной модели. Источник: Nvidia
  • Указывать название Aurora публично не будут. «Считайте, что всё делает Grok», — написал Илон Маск. До этого в «подвале» интерфейса Grok была плашка, что с генерацией изображений помогает модель Flux.1 от Black Forest Labs, теперь её нет.
  • В начале декабря 2024 года X начала открывать доступ к Grok пользователям без платных подписок. Максимальное количество запросов — десять в два часа. Дальше понадобится Premium.
44
8 комментариев

Вам кто-нибудь лизал очко?

Толстой на Кашина похож

Лица одинаковые.

Открвоенно, тут с фоном явная лажа, как будто студент нафотошопил

но это нарисовано за 30к. нужно отдать должное. экономия времени на лицо

Новости инноваций из России:
- Греф рассказал Путину про IVR и сказал, что это ИИ
- Яндекс добавил примитивный ИИ в свою колонку и поднял цену в 2 раза
- МТС закрыл свое ИИ направление