Чипсы со вкусом ошибки HTTP 500, консистентные стили и старые-добрые баги: особенности и проблемы Midjourney V6

В декабре прошлого года Midjourney открыли ранний доступ к шестой версии. В феврале 2024 она стала стала моделью по умолчанию, несмотря на сохранившийся статус альфа-тестирования. В тексте расскажем, что нового в Midjourney v6 и чем она отличается от прошлых версий.

Запрос: chips lays packaging with label «Internal Server Error» —style raw. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208866274562805780%2Ff1remoon_chips_lays_packaging_with_label_Internal_Server_Error_67fcaece-52b8-469b-a465-8b3dbd64a926.png%3Fex%3D65e4d773%26amp%3Bis%3D65d26273%26amp%3Bhm%3D5237727904af2a9a72fbaad9c80587752266bba8d10f1192acdfc62e87351263%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">Слева</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208866506721726565%2Ff1remoon_chips_lays_packaging_with_label_Internal_Server_Error_785f31ea-b3d4-4fae-bc84-33bd56a75528.png%3Fex%3D65e4d7aa%26amp%3Bis%3D65d262aa%26amp%3Bhm%3Dac71976228f23ce35ae9fb33267662c1ad6b960eda935240bc74551169fc55ea%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">справа</a>.
Запрос: chips lays packaging with label «Internal Server Error» —style raw. Слева, справа.

Привет! Меня зовут Вова, я backend-разработчик в Selectel. В тексте рассмотрю шестую версию модели — как я и обещал в предыдущем обзоре, — а также сравню ее с предыдущими и проанализируем новые появившееся особенности.

Заявления разработчиков

Шестая версия — это третья модель Midjourney, обученная с «нуля». Процесс разработки занял около девяти месяцев. Она по-другому понимает вопросы, поэтому прошлые методы подготовки промтов могут работать иначе.

Кроме того, шестая версия более чувствительна к словам. Разработчики предлагают воздержаться от «мусора», такого как award winning, photorealistic, 4k и другого. А так как Midjourney v6 до сих пор находится в статусе альфа-тестирования, модель может в любой момент менять стили генераций.

Новая модель получила функцию outpaint и научилась дорисовывать исходные изображения. Кроме того, разработчики открыли доступ работе с Midjourney через веб-интерфейс. Обновление доступно для пользователей, которые сгенерировали более 5 000 изображений.

В начале февраля разработчики добавили функциональность «консистентных стилей» для шестой версии. Наконец, 15 февраля она становится моделью по умолчанию. Однако разработчики говорят, что это все еще альфа-версия.

Обзор нововведений

Генерация текста

В анонсе шестой версии есть краткое упоминание о «небольшом улучшении отрисовки текста».

Это довольно примечательное и одновременно регулярное улучшение, которое свойственно для каждой версии Midjourney. Сравните сами:

Запрос: monitor with text «Hello, World!». Версии слева направо, сверху вниз: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208852142971166780%2Ff1remoon_monitor_with_text_Hello_World_505dc6b3-ea2a-4727-aa07-1f2b9e6d732c.png%3Fex%3D65e4ca4a%26amp%3Bis%3D65d2554a%26amp%3Bhm%3D8e618840fd241f675ea862c80311dd0033531fc80297d38ee2e6343812cb93c7%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">первая</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208852160532586616%2Ff1remoon_monitor_with_text_Hello_World_84487524-1a70-43ce-ae81-091d72087e79.png%3Fex%3D65e4ca4e%26amp%3Bis%3D65d2554e%26amp%3Bhm%3Dbc922168315b90b1ec478246375da85a8d72d9fdc8a95215df76e187bd865600%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">вторая</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208852137677815858%2Ff1remoon_monitor_with_text_Hello_World_a5837ddc-7b46-4f02-9a42-029d6ed7c399.png%3Fex%3D65e4ca49%26amp%3Bis%3D65d25549%26amp%3Bhm%3Dae5a882b50d20791240413dcdd1ca2150630088161af316634c214d02dd1ae64%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">третья</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1209461413144432640%2Ff1remoon_monitor_with_text_Hello_World_06a5d5cd-76ec-48e7-8572-1f64934025d5.png%3Fex%3D65e701b7%26amp%3Bis%3D65d48cb7%26amp%3Bhm%3D8297981b2c4176f8651a830929477e5de5bdc706989cd111e6a6cad3f9c74e8d%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">четвертая</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208847928270262323%2Ff1remoon_monitor_with_text_Hello_World_b59d8dbd-601c-4a95-9a04-662bd139f77b.png%3Fex%3D65e4c65d%26amp%3Bis%3D65d2515d%26amp%3Bhm%3D5c33a56183eff999f8ff774cadc59beb81050e5d08aceec39b78ab2dc71b7d96%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">актуальная пятая (5.2)</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208847877141561354%2Ff1remoon_monitor_with_text_Hello_World_b066b60e-f45a-4b0c-abcb-c293d7f6d0d9.png%3Fex%3D65e4c651%26amp%3Bis%3D65d25151%26amp%3Bhm%3D7f69484fb41f964f08ac47603d6029e561410dae770e984e90bbd9cd8f3397d7%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">шестая</a>.
Запрос: monitor with text «Hello, World!». Версии слева направо, сверху вниз: первая, вторая, третья, четвертая, актуальная пятая (5.2), шестая.

Можно уверенно сказать, что раньше было хуже. Четвертая версия показывает в основном корректные буквы, но совершенно неправильные слова. Пятая пытается, но получается только хуже. А шестая — справляется практически безупречно. Ничего лишнего, на четыре изображения приходится всего одна ошибка.

Запрос: sign with text «Внимание!». <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208854539076116591%2Ff1remoon_sign_with_text__629ff619-48db-4e09-b8e1-b8d8b9bde561.png%3Fex%3D65e4cc85%26amp%3Bis%3D65d25785%26amp%3Bhm%3Dab262c784794d2cd3dd5a364fc262fc83b466843e5341ef59933520089112f63%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">Слева</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208855050512900106%2Ff1remoon_sign_with_text__54be5130-db71-4d40-90ad-f3662328c583.png%3Fex%3D65e4ccff%26amp%3Bis%3D65d257ff%26amp%3Bhm%3D5cadd5e4ced63802e6f54f5ad6f52b68197693c413fe24c7cb3e41c10f523774%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">справа</a>.
Запрос: sign with text «Внимание!». Слева, справа.

Очевидно, что в Midjourney поддерживаются не все «шрифты» и кириллица генерируется плохо. Вернее, это даже на кириллицу не похоже. Иероглифы я сразу отдал на генерацию Niji 6, которую принято считать наиболее восточной моделью.

Запрос: sign with text «注意» —niji 6. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208857313004228669%2Ff1remoon_sign_with_text__d0a87dd7-aebc-43e3-81c6-6da114c8cb16.png%3Fex%3D65e4cf1a%26amp%3Bis%3D65d25a1a%26amp%3Bhm%3D5c6e31626263b216b95df8e01d12b13b777d4e6de195cbf6154d44c6ec3aaa1b%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">Слева</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208859026817810492%2Ff1remoon_sign_with_text__6626a350-2ee0-4fa4-b7e9-220b3d55789b.png%3Fex%3D65e4d0b3%26amp%3Bis%3D65d25bb3%26amp%3Bhm%3D93e548b55a8b531583949f0afc5a7a03a747ab2af5cfb8d32124fad15aa976a9%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">справа</a>.
Запрос: sign with text «注意» —niji 6. Слева, справа.

Niji 6 рисует правдоподобные иероглифы, половину из них даже распознает Google Translate. В общем, генерация текста доступна только на английском языке. Тогда как много текста может «написать» модель в пределах одной картинки?

Запрос: paper with text «The quick brown fox jumps over the lazy dog». <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208861238571040869%2Ff1remoon_paper_with_text_The_quick_brown_fox_jumps_over_the_laz_0dfcc419-a044-446f-a69a-fdb133b82f44.png%3Fex%3D65e4d2c2%26amp%3Bis%3D65d25dc2%26amp%3Bhm%3De4ad1f45a406d61e13f1e45f30c21c0ac6b460dcef88c7ff607f5034e5abfdec%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">Слева</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208863232744497203%2Ff1remoon_paper_with_text_The_quick_brown_fox_jumps_over_the_laz_bacf14da-e6f2-40cf-8b67-7247e4cdbfd9.png%3Fex%3D65e4d49e%26amp%3Bis%3D65d25f9e%26amp%3Bhm%3D4231df6436e2d2c0d98764ca7a9342d70126e959fda3e3bd5bd3e78b46c1c15f%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">справа</a>.
Запрос: paper with text «The quick brown fox jumps over the lazy dog». Слева, справа.

Если есть деньги и бюджет, можно получить что-то похожее на панграмму The quick brown fox jumps over the lazy dog. Но сгенерировать идеальный вариант будет затруднительно: то буквы «плывут», то слов не хватает, то порядок не тот.

Тем не менее, корректная генерация коротких сообщений позволяет делать потешные изображения. Например, чипсы со вкусом ошибки HTTP 500 (внутренняя ошибка сервера) или тортики для Хабра.

Торт с надписью Habr. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.midjourney.com%2Fd7553cef-a185-46de-8916-456df257e32e%2F0_1.webp&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">Источник</a>.
Торт с надписью Habr. Источник.

Консистентные стили

Borderlands 3. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.gameinformer.com%2Freview%2Fborderlands-3%2Fborderlands-3-review-sticking-to-its-guns&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">Источник</a>.
Borderlands 3. Источник.

Консистентные стили (consistent styles или style references) — это тестовые алгоритмы для шестой версии, которые позволяют генерировать картинку в стиле другого изображения.

Примеры стилей для нового алгоритма задаются через перечисление ссылок на изображения в параметре —sref.

Пример: portrait of beautiful woman --sref https://s.mj.run/aB9U84ivF6Q

Визуальный стиль Borderlands весьма примечателен, поэтому я взял иллюстрацию выше в качестве примера.

Запрос: portrait of beautiful woman —sref https://s.mj.run/aB9U84ivF6Q. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208868296854872135%2Ff1remoon_portrait_of_beautiful_woman_24f1d12c-bfbe-4797-912b-1b7f3f069d9a.png%3Fex%3D65e4d955%26amp%3Bis%3D65d26455%26amp%3Bhm%3D88afcb7e2d592e1d9eb9fc185b506bf673fafddf0ea291a2a7dbd604185ae913%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">Слева</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208870179438854194%2Ff1remoon_portrait_of_beautiful_woman_6376a7e0-6aba-4777-99d1-df482def1433.png%3Fex%3D65e4db16%26amp%3Bis%3D65d26616%26amp%3Bhm%3Db00aa4bdebd7aaf8f6a49a3c29d89b37e0b365accda7f8223236032e055dd7fb%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">справа</a>.
Запрос: portrait of beautiful woman —sref https://s.mj.run/aB9U84ivF6Q. Слева, справа.

Обратите внимание: стиль Borderlands применяется не везде, но цветовая гамма весьма схожая. Опытный пользователь может отметить, что Midjourney уже давно умеет использовать другие изображения в качестве референсов. Это правда, но параметр sref заимствует именно стиль и не влияет на текстовый запрос.

Запрос: https://s.mj.run/aB9U84ivF6Q portrait of beautiful woman. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208868932384198727%2Ff1remoon_portrait_of_beautiful_woman_7391f917-61e9-45e6-9c15-dad5422412b2.png%3Fex%3D65e4d9ed%26amp%3Bis%3D65d264ed%26amp%3Bhm%3D132b93ff5792a81726e4a5f107490d436b60e1be1aa71eb95c47078d023004fd%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">Слева</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208868609489772585%2Ff1remoon_portrait_of_beautiful_woman_02d1206d-26e0-4853-b7f5-93e667cc08bc.png%3Fex%3D65e4d9a0%26amp%3Bis%3D65d264a0%26amp%3Bhm%3Db63086c4096a6773ee2c253e8cfd1e203388820d3439ebad314060f025182498%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">справа</a>.
Запрос: https://s.mj.run/aB9U84ivF6Q portrait of beautiful woman. Слева, справа.

Старый способ заимствования стилей не только хуже справляется, но и добавляет лишние детали (в примере выше — вооружение и дополнительных людей). Кроме того, в семи из восьми случаев Midjourney дорисовывает черные полоски, потому что исходное изображение не квадратное.

Следующий шаг развития — консистентный персонаж (consistent character). Звучит как удобный инструмент, например, для генерации визуальных новелл. Но сегодня эта функциональность недоступна, а дата релиза не обозначена.

Ремастер

Функция «ремастер» появилась раньше, чем вышла Midjourney v6, и имеет жесткие ограничения по версиям моделей. Тем не менее, это интересная особенность, которую я пропустил ранее.

Ремастер — перегенерация старых изображений с использованием новой модели. На момент написания текста ремастерить можно изображения, сгенерированные Midjourney v1, v2 и v3. Обновленные иллюстрации рисует модель v5.2.

Найти кнопку ремастера — нетривиальная задача. Для этого нужно:

  • сгенерировать новое изображение на старой модели или «освежить» один из запросов через команду /show и UUID запроса,
  • увеличить изображение с помощью функции Upscale и кнопок U1, U2, U3 или U4,
  • нажать на появившуюся кнопку Remaster.

Что разработчики еще не исправили

В ранних обзорах я показывал реакцию Midjourney на некорректные или слишком точные запросы (статья об экспериментах с Midjourney и статья о багах) . Раз разработчики заявляют, что шестая версия — это обученная с нуля модель, посмотрим, насколько она унаследовала особенности своих предшественников.

Защитный механизм

Запрос: e97c74d3-6547-4563-8867-758747813314 (<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208885934616223865%2Ff1remoon_e97c74d3-6547-4563-8867-758747813314_f24f867e-13b7-4d60-8be2-2a223747fdf5.png%3Fex%3D65e4e9c2%26amp%3Bis%3D65d274c2%26amp%3Bhm%3D5e07bbec8bc6537a148d9fc357e0ba12825cc0c082929b852bd9d55e2228bdb3%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">слева</a>), жадина-говядина (<a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208882640577372260%2Ff1remoon_-_e3e9349c-d153-4d5f-bb7d-da8c300156f3.png%3Fex%3D65e4e6b1%26amp%3Bis%3D65d271b1%26amp%3Bhm%3D885cfc635a7f6f0f78349faa6f852947a7c56df7a659bfce16cdaf0dc22e04df%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">справа</a>).
Запрос: e97c74d3-6547-4563-8867-758747813314 (слева), жадина-говядина (справа).

Хотя это не самый популярный пункт, мне он вспоминается первым. Абстрактные или некорректные запросы в 99% случаев приводят к генерации портрета девушки в ранних версиях Midjourney. Шестая версия — не исключение.

Вероятно, эта особенность связана с токенайзером и данными для обучения. Первый по-прежнему удаляет неизвестные токены, а при пустом запросе модель генерирует то, чего было больше в обучающем наборе данных.

Генерация пальцев

Запрос: hands with golden ring. Слева направо: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208888106623701013%2Ff1remoon_hands_with_golden_ring_5a97bdb5-ee81-43ff-ba43-ef2a5b0b7fdb.png%3Fex%3D65e4ebc8%26amp%3Bis%3D65d276c8%26amp%3Bhm%3D3d4508cc1c0f8bbfd5aa4fade80f777441c81abaf6ccc49579a5eb9a1af43c8a%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">четвертая</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208888240317267978%2Ff1remoon_hands_with_golden_ring_e027c7ad-b0c4-4669-b879-44bb9713627b.png%3Fex%3D65e4ebe8%26amp%3Bis%3D65d276e8%26amp%3Bhm%3Dd28b52b3f28a197fdbfa906100c5f38e2ffad714c711da5c61ba28d2d75e1136%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">пятая</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208888186261209108%2Ff1remoon_hands_with_golden_ring_81cc4b06-11cc-42af-acce-1c52297d35a1.png%3Fex%3D65e4ebdb%26amp%3Bis%3D65d276db%26amp%3Bhm%3Deaa4ce7b70919d250717b98756547bd1418a887403ec18ae2859bd54c6605351%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">шестая</a> версия.
Запрос: hands with golden ring. Слева направо: четвертая, пятая, шестая версия.

В обзоре пятой альфа-версии я хвалил Midjourney, что им удалось частично пофиксить некорректную генерацию пальцев. Но результат по запросу, где руки, допустим, что-то держат, не радует идеальными кистями. Впрочем, никто не обещал, что Midjourney v6 будет идеальна во всех аспектах.

Запрос: hamburger in hands. Слева направо: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208889127722819705%2Ff1remoon_hamburger_in_hands_c3fb2090-8df5-4e1e-9dfe-ef3eec1ac828.png%3Fex%3D65e4ecbc%26amp%3Bis%3D65d277bc%26amp%3Bhm%3Db7a137d9b76fb9cefca1d1b4aee667ca09795810a67315c54c0951bbad95e515%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">четвертая</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208889250188365854%2Ff1remoon_hamburger_in_hands_13846560-cee1-44bb-8c08-5bfc9ad39ce1.png%3Fex%3D65e4ecd9%26amp%3Bis%3D65d277d9%26amp%3Bhm%3D212bdfde4ab0c4efefbf93eddcd816e3fc12ebef4e7a98922850a31751c2de9a%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">пятая</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208889304781295696%2Ff1remoon_hamburger_in_hands_a3358f24-8051-4adc-a04d-ae5b4b56c520.png%3Fex%3D65e4ece6%26amp%3Bis%3D65d277e6%26amp%3Bhm%3D563aa082b00783bf2056dda4db9395348d188a9559927036811b17901ef02795%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">шестая</a> версии.
Запрос: hamburger in hands. Слева направо: четвертая, пятая, шестая версии.

Точное количество

Запрос: twelve cats. Слева направо: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208892374625947648%2Ff1remoon_twelve_cats_3319a5b3-308c-48df-903c-5a6bb8b6aa06.png%3Fex%3D65e4efc2%26amp%3Bis%3D65d27ac2%26amp%3Bhm%3D67a1be183d138817cd295e1d6b38f5b4666ed4c62b6bb457e108c39b11a6f42a%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">четвертая</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208891930553880646%2Ff1remoon_twelve_cats_0ef0a3b7-71e1-48e8-b35d-eb2a5d0c4a43.png%3Fex%3D65e4ef58%26amp%3Bis%3D65d27a58%26amp%3Bhm%3De087841bc6057671b2469de9005e28d0d061327cb1caf8b369d2e1dec85bbc08%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">пятая</a>, <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fcdn.discordapp.com%2Fattachments%2F1001883306146660443%2F1208891885607985292%2Ff1remoon_twelve_cats_2b0abb32-6112-4211-9ab9-14f95ebe01fd.png%3Fex%3D65e4ef4d%26amp%3Bis%3D65d27a4d%26amp%3Bhm%3Db6c365a519930e1658f38d0551b77b08b601d2768df50aa37851da5a29e5f874%26amp%3B&postId=1081498" rel="nofollow noreferrer noopener" target="_blank">шестая</a> версия.
Запрос: twelve cats. Слева направо: четвертая, пятая, шестая версия.

Считать до больших чисел Midjourney все еще не научилась: только четвертая версия смогла сгенерировать изображение с двенадцатью котами. Однако этот пример раскрывает композиционные «предпочтения» шестой модели. При запросе множества объектов она по умолчанию генерирует несколько независимых изображений.

Что в итоге?

Разработчики Midjourney активно улучшают модель. Эволюция в виде «мутаций» и улучшений — налицо практически в любом примере. Посмотрим, чем порадуют следующие версии модели.

Если успели опробовать шестую версию Midjourney, смело делитесь в комментариях впечатлениями и мнением о модели. А также подписывайтесь наш блог, чтобы не пропустить новые материалы по темам искусственного интеллекта и нейросетей.

Читайте также:

1717
реклама
разместить
9 комментариев

Хочу чипсы со вкусом цикличного редиректа, дайте пару упаковок.

2

Наверное, в случае с циклом символичнее использовать формат луковых колец)

2

вот знаете,а я бы попробовал чипсы с каким то необычным вкусом,все равно химия,так почему она по вкусу должна напоминать уже существующие продукты

Философский подход, поддерживаем!

Прогресс определенно есть. Кстати чипсы выглядят очень неплохо)

А торт для читателей Хабра видели? Тоже крут!