(function(m,e,t,r,i,k,a){m[i]=m[i]||function(){(m[i].a=m[i].a||[]).push(arguments)}; m[i].l=1*new Date(); for (var j = 0; j < document.scripts.length; j++) {if (document.scripts[j].src === r) { return; }} k=e.createElement(t),a=e.getElementsByTagName(t)[0],k.async=1,k.src=r,a.parentNode.insertBefore(k,a)}) (window, document, "script", "https://mc.yandex.ru/metrika/tag.js", "ym"); ym(93790508, "init", { defer: true, clickmap:true, trackLinks:true, accurateTrackBounce:true }); ym(93790508, 'hit', window.location.href);

Котики, лишние пальцы, странная валюта: 8 багов Midjourney, которые мы нашли за время ее существования

Некоторые баги существуют и сейчас. Мы потратили целый день, чтобы уговорить нейросеть заменить человека на картинке, но ничего не вышло. Смотрите, что создает Midjourney, когда ошибается, и угадывайте, какие баги мы зашифровали в обложке :)

Что такое Midjourney и как она генерирует картинки

Midjourney — это нейросеть, которая создает картинки по запросу пользователя. Ей можно описать замысел словами — такой запрос называется промт, или дать референсы для объединения. Нейросеть обработает и выдаст коллаж из четырех релевантных изображений.

Например, здесь мы написали запрос «собака читает книгу при свечах».

Используйте навигацию, если нет времени читать текст целиком:

Midjourney существует с 2022 года, сейчас пользователи генерируют картинки уже в пятой версии. Нейросеть обучается на основе огромных массивов изображений с описаниями, которые ей «скармливают» разработчики. Программа сопоставляет текст и изображение и запоминает, как выглядят предметы и явления.

Запросы в нейросеть делают с помощью мессенджера Discord — для этого используют чаты с ботом Midjourney. Обычно промты пишут на английском языке, дополнительно используют аргументы. Например, частицу –no, после которой пишут, чего не должно быть на картинке. В ответ на запрос Midjourney выдает картинки.

Мы сравнивали разные нейросети — просили их изобразить любовь и написать автопортрет. В тексте по ссылке рассказываем, что из этого получилось.

С каждой версией нейросеть генерирует все более качественные иллюстрации. Но иногда можно встретить в программе интересные баги. Мы собрали некоторые из них за все время существования нейросети.

Рисует больше пальцев

Изображая руки, Midjourney часто ошибается в количестве пальцев или рисует положение кисти неестественно. Это самый известный в интернете баг нейросети.

Возможно, здесь нейросеть ориентировалась на жест peace, но нарисовать его правильно не смогла.

На форумах дизайнеров мы нашли гипотезы, почему эта ошибка возникает.

Стандартная: при обучении у нейросети было слишком мало картинок с пальцами и руками, поэтому ей сложно нарисовать их детально.

«Теория заговора»: разработчики специально настроили Midjourney так, чтобы она выдавала ошибки, которые будет легко заметить, — например, с пальцами. Это сделано для того, чтобы люди не боялись искусственного интеллекта и нейросетей, которые все делают идеально и могут заменить «живых» специалистов.

Ноги — тоже не сильная сторона Midjourney. На запросы изобразить сидящего человека программа может выдать странные рисунки.

На иллюстрации одна нога исчезла, зато рука получилась почти человеческая :)

Добавляет котиков, когда в запросе их нет

Midjourney любит котиков. На некоторые промты со словом cute (милый) нейросеть выдает изображения с котами, даже если в запросе домашний питомец не упоминался.

Здесь мы попросили нарисовать милого дракона — и получили две картинки с котами.

Есть предположение, что коты в иллюстрациях связаны с процессом обучения нейросети. Возможно, когда Midjourney «скармливали» изображения, многие картинки с четвероногими содержали в описании слово cute — и нейросеть запомнила это сопоставление.

Не может угадать возраст

Нейросеть иногда ошибается с возрастом. Например, на промт «девушка 30 лет» Midjourney может нарисовать молодую, но полностью седую женщину.

У девушки в левом нижнем углу нет морщин — скорее всего, нейросеть не соотносит седину и возраст.

Ошибку можно объяснить особенностями обучения нейросети. Когда Midjourney изучала фото людей, она составила из изображений среднестатистический образ человека с любым оттенком волос. Программа не соотносит седину и возраст, поэтому к блондинкам, рыжим и брюнеткам добавляет седую девушку.

Думает, что люди — это селфи в зеркале

Если попросить нейросеть показать позы для фотографий, результат будет на первый взгляд странным — лицо и спина в одной плоскости.

Здесь мы попросили нейросеть помочь с позами для фотографий.

Это происходит потому, что в интернете много зеркальных селфи: девушки часто фотографируются так, чтобы и лицо, и аппетитные формы попали в кадр. Midjourney обучается на этом материале и выдает по запросу такие «удачные» ракурсы.

Фантазирует о региональных промыслах

Когда пользователи просят Midjourney нарисовать предметы декоративно-прикладного искусства из разных регионов, нейросеть дает изображения, которые вообще не подходят под запрос. Хотя популярные у туристов предметы искусства, например портрет Моны Лизы, программа генерирует корректно.

Слева — тюменская роспись. Но, по мнению Midjourney, узоры должны быть побогаче :)

Это связано с тем, что информации о региональных промыслах мало. А значит, Midjourney сложно научиться генерировать картинки по таким запросам.

Придумывает собственную валюту

Если написать в запросе конкретную валюту, нейросеть нарисует купюры, которых не существует в реальности. Мы просили Midjourney совместить две валюты в одной и тестировали разные варианты (рубль и доллар, евро и доллар, доллар и юань). Чаще всего, если в паре был доллар, именно его Midjourney брала за основу.

Интересно, что означают надписи и цифры по углам, по мнению нейросети.
А эта валюта похожа и на евро, и на рубли.

Этот баг тоже можно объяснить. Суть Midjourney — генерировать изображения, то есть создавать новые образы, а не копировать то, что уже существует.

Поэтому программа не может просто перенести картинку из базы иллюстраций и создает валюту с нуля.

Плохо понимает сложные промты

Нейросеть плохо воспринимает комплексные запросы. Например, мы попросили программу нарисовать удивленного подростка с бабочкой из лего на лице. Midjourney не смогла справиться с этим запросом: в нем много параметров и, скорее всего, мало соответствий в базе иллюстраций, на которой обучалась нейросеть.

Нейросеть решила нарисовать всю картинку в лего-стиле.

В отличие от человека, нейросеть может не понимать сложные запросы, поэтому необходимо четко формулировать промты, а также использовать аргументы.

Не умеет заменять части изображения

Midjourney неправильно считывает просьбу поменять часть иллюстрации. Например, если до этого программа рисовала старика на лошади, то на запрос «замени на девушку» можно получить странный результат.

С запросом «старик на белой лошади» Midjourney справилась не очень хорошо. А с просьбой «замени на девушку» еще хуже.

Чем полнее и детальнее будет промт, тем точнее нейросеть справится с задачей.

Как правильно писать запросы в Midjourney, мы рассказали в статье про генерацию обложек для IT-блога.

Это самые интересные баги, которые мы нашли у нейросети за время ее существования. Разработчики Midjourney постоянно ее улучшают, поэтому, скорее всего, таких же багов вы уже не встретите.

Если замечали другие баги — смело делитесь в комментариях. А также подписывайтесь на наш блог. Обещаем, скоро опубликуем еще несколько интересных экспериментов, связанных с работой нейросетей.

Читайте также:

0
26 комментариев
Написать комментарий...
Елизавета Cурина

Интересно, что будет, если попросить нарисовать девушку 30 лет в разных позах с руками, а потом попросить заменить ее на старика 🤪

Ответить
Развернуть ветку
Selectel
Автор

Можно подкинуть этот промт сценаристам: кажется, что может пригодиться в каком-то хорроре :)

Ответить
Развернуть ветку
Николай И

в корейском хорроре)

Ответить
Развернуть ветку
Рама

А почему "промт" то, когда "промпт"? Мне вообще странно, что большинство экспертов по нейросетям этот термин некорректно обозначают

Ответить
Развернуть ветку
Tomoko

зато какой хайповый инфоповод с этими многопальцами получился, находка для пиарщиков

Ответить
Развернуть ветку
Max Technologic

Такой сюр шикарный, не нужно нейронку от этого отучать, пусть забавляется пальцами и котиками.

Ответить
Развернуть ветку
Selectel
Автор

Не баг, а фича!

Ответить
Развернуть ветку
Светочка Шаманка

А можно ли узнать больше о странных багах Midjourney? Каким образом они влияют на работу платформы?

Ответить
Развернуть ветку
Selectel
Автор

Светочка, скорее, эти неточности влияют на пользователей: нужно четче формулировать запросы, экспериментировать и закладывать на это время.

О каких багах вам было бы еще интересно узнать?

Ответить
Развернуть ветку
Екатерина Лебедева

Спасибо за статью, поужасалась))

Как-то видела на креативе мужчину, к которому тянулись руки просто с кучей пальцев. И его печальное лицо. Жаль, не сохранила)

Ответить
Развернуть ветку
Selectel
Автор

Ого! Представили и тоже ужаснулись)

Ответить
Развернуть ветку
Timur Agaev

Подборка с удачными ракурсы рассмешила, получается таких селфи больше половины в сети-занимательно

Ответить
Развернуть ветку
Selectel
Автор

Хорошо вас понимаем! Для нас это тоже стало неожиданной находкой :)

Ответить
Развернуть ветку
Зина Полторашка

Эй, а что еще можно узнать о Midjourney?

Ответить
Развернуть ветку
Selectel
Автор
Ответить
Развернуть ветку
Alex

без конкретных промтов статья не имеет смысла, может проблема была в вас самих)

ну а то, что mj не знает как выглядит тюменская роспись, то это уже проблема Тюмени, что не настолько популярен ее стиль

Ответить
Развернуть ветку
Alex

да и если дать реф, то и с Тюменью можно закрыть вопрос

Ответить
Развернуть ветку
Alex

Промт про позы тоже не совсем понятен, что именно вы вписывали, чтоб получить такой результат

Ответить
Развернуть ветку
Andrei Davydov

Только все-таки это не совсем "баги" )) Хотя для статьи - красиво )

Ответить
Развернуть ветку
Selectel
Автор

Интересное замечание. Наверное, это больше про "баги" в коммуникациях между человеком и системой. Как считаете?

Ответить
Развернуть ветку
Alex

Основная проблема mj, она не может сделать 1 в 1 с тем что уже существует, например просто сделать картинку банкноты в 1$ она не сможет. Она "съела" миллион картинок разных стилей и не знает как она выглядит в действительности.

Ну и с иконками и текстами плоховато.

Ответить
Развернуть ветку
Айдар Каримов

и все же генерирует весьма интересные изображения

Ответить
Развернуть ветку
Ростислав Симонов

О, эти странные кошачьи проблемы - так важны для нас!

Ответить
Развернуть ветку
Selectel
Автор

Проблемы котиков — святое!

Ответить
Развернуть ветку
Valdis K.

Вот кстати по пальцам проще всего узнать настоящий ли рисунок или сгенерированный ИИ

Ответить
Развернуть ветку
Selectel
Автор

Valdis, выходит, это часть авторского стиля. Почерк творца!

Ответить
Развернуть ветку
23 комментария
Раскрывать всегда