{"id":14277,"url":"\/distributions\/14277\/click?bit=1&hash=17ce698c744183890278e5e72fb5473eaa8dd0a28fac1d357bd91d8537b18c22","title":"\u041e\u0446\u0438\u0444\u0440\u043e\u0432\u0430\u0442\u044c \u043b\u0438\u0442\u0440\u044b \u0431\u0435\u043d\u0437\u0438\u043d\u0430 \u0438\u043b\u0438 \u0437\u043e\u043b\u043e\u0442\u044b\u0435 \u0443\u043a\u0440\u0430\u0448\u0435\u043d\u0438\u044f","buttonText":"\u041a\u0430\u043a?","imageUuid":"771ad34a-9f50-5b0b-bc84-204d36a20025"}

Рейтинг нейросетей для генерации изображений

Привет, решили разобрать для себя «какой из сервисов реально лучше» для ежедневных офисных задач. В интернете сотни «убийц» ChatGPT и Midjourney. Давайте разбираться!

Для каждого сервиса мы использовали 14 различных по смыслу, сложности и стилю промптов. Каждая генерация оценивалась отдельно и сравнивалась с генерациями других сервисов, оценивалось качество изображения и решение задачи промпта (понимание). Помимо генерации в итоговом рейтинге мы оценили функциональность, юзабилити, сложность входа (доступность в РФ, требования к vpn, наличие триалов и пр.) надежность и производительность. Стоимость оставили за границей рейтинга. (Мы в телеграм)

В оценку взяли большинство сервисов, которые гуляли по интернету в различных «картинках-рейтингах» и отобрали те, их них, которые можно было протестировать бесплатно (итого 11 шт). Ловите то, что получилось:

Поехали!

ГЕНЕРАЦИИ

Средний результат по всем сервисам - 3.07 из максимальных 5 (что в целом очень неплохо). Нет желания грузить списком сгенерированных картинок, примеры:

Хуже всего генераторы изображений справляются с запросом объединения лица человека и животного в единую полноразмерную картинку (a full-body, high-quality, photorealistic image of achimera composed of the head of a slightly chubby 35-year-old man with a small dark beard and an earringin one ear, and the body of a corgi dog. The chimera should maintain anthropometric proportions and appear as if it was captured on a professional camera during sunset lighting. Ideally, the chimera should be walking on a leash held by a tall woman). Худший средний балл запроса по всем сервисам - 1.80. Никто не справился, но за качество генерации у MJ балл чуть выше.

Странно, что почти все сервисы справились с объединением животных из зебры и жирафа(magical animal in the form of a giraffe with zebra skin on the background of the zoo) . Средний балл - 3.50.

Зеброжираф потрясный!!! SD поиграл в черно-белое, но жирафы посыпались и зоопарка не видно.

Наиболее простая генерация для каждого из сервисов - киберпанк киборг (Cyborg in exoskeleton with arm manipulator in cyberpunk style). Средний балл 4.00.

Все справились, у некоторых киборги сильно круче и детализированней.

Запрос для демо несуществующего технорешения, оказался сложным, видимо, слишком много объектов необходимо было объединить в изображении, но некоторые результаты вполне можно использовать (robotic platform, on it stands a tripod with a camera, it rides on pipe rails through an industrial greenhouse in which cucumbers grow, super realistic, 4k). Средний балл 2.91

Интересный запрос на мальчика в ветхой одежде, некоторые сети поняли, что к ветхости было бы неплохо добавить грустные лица. Интересно (видимо, ChatGPT под капотом делает понимает запроса глубже, Kandinsky справляется с этой задачей тоже безупречно, но с худшим качеством). Средний балл 3.67

Ночь, улица, фонарь, аптека – неберущийся запрос для текущих версий нейросетей (neon sign with the word "pharmacy", night, street, lamp). Средний балл 2.8

Создание логотипа в виде кота в каске. Некоторые сети с упорностью выдавали полностью провальные ответы. Средний балл 3.40

ВЫВОДЫ

· Текущие версии сетей не умеют «в генерацию текста» и не умеют скрещивать объекты по сложным запросам с людьми

· Только Бинг и Кандинский понимают русский язык

· Многие сервисы абсолютно не стоят того, чтобы за них платить

· Плохой интерфейс и слабая функциональность портят даже самые лучшие генераторы

· Сложная регистрация и необходимость VPN для многих будут стопфакторами

· Есть отличные сервисы с бесплатной или ограниченно бесплатной версией

НОМИНАЦИИ

Логику рейтинга можно посмотреть в Google таблицы (будем рады критике и обсуждению для дальнейшего совершенствования).

0
51 комментарий
Написать комментарий...
Глеб

Вы явно делали что-то очень неправильное, раз Stable Diffusion показала худшие результаты в рисовании лиц. Вот пара работ, выполненных на среднем уровне и с ошибками.
Если немного постараться, то на Stable Diffusion можно достичь полной фотореалистичности.

Ответить
Развернуть ветку
Егор Казачий
Автор

В чем вопрос? Были подготовлены просты единые для всех, были оттестированы сети. 3/5/6 места с совсем маленьким отставанием за сервисами с SDXL на борту

Ответить
Развернуть ветку
Глеб

Нарисовал на кастомной модели Stable Diffusion мальчика в драной одежде. Заняло 10 минут, из которых 9,5 подбирал в мультитране подходящее слово для рваной одежды (old tattered clothes).
Если рисовать rag clothes, то одёжа получается слишком нарядной, а в каких-то случаях чуть ли не дизайнерской.

Ответить
Развернуть ветку
Егор Казачий
Автор

Ну вот можно сравнить с простым запросом естественным языком на русском языке в Bing. Результат за 5 секунд написания и 5 секунд генерации

Ответить
Развернуть ветку
Глеб

Ну вот вам рисунок на Stable Diffusion описанный самым естественным языком из возможных. Камера, которой девочка что-то фотографирует, присутствовала не на всех рисунках. Но при повышении силы токена была на каждом.

Скорость рисования... секунды 3 на мощной видеокарте, 10-15 на средненькой и несколько минут если рисовать вообще без видеокарты, только на центральном процессоре.

Промпт: Behind a pair of oversized glasses, this girl's hazel eyes survey the world around her. She wears a beanie on her head, shielding her curly locks from the sun's rays, as she clicks her camera to capture every moment.

Ответить
Развернуть ветку
Егор Казачий
Автор

В вашем запросе камера, а ее нет. Первая же генерация Bing по этому запросу выдала следующее. Весь атрибутный состав запроса в генерации. Косяк с пальцами, но можно перегенерить. Для меня важна полнота решаемой задачи и удобство реализации сервиса. Если есть сложный пропт с которым справляется только SD, то буду рад затестировать. + какой именно из веб сервисов SD используется? (в расчет не беру хардовые версии моделек - у многих в офисе залоченные компы и тестировались облачные сервисы)

Ответить
Развернуть ветку
Глеб

Хорошо, вот с камерой. Без повышения весов токенов, тот же промпт.

Из веб-версий могу порекомендовать только Midjourney и новой SDXL. Остальные рисуют скверно и странно их вообще обсуждать.

Ответить
Развернуть ветку
Егор Казачий
Автор

Мое мнение, что Bing более полно ответил на "as she clicks her camera to capture every moment" реально кликает!

А линк на sdxl? Я тьму сервисов попробовал с sdxl на борту

Ответить
Развернуть ветку
Глеб

У SDXL всего два варианта: веб-версия на сайте проекта (лучший вариант, т.к. он гибче и имеет больше настроек) или официальный сервер в дискорде. Кто все остальные - не знаю, самозванцы какие-то.

Ещё можете попробовать https://pixai.art, если вам так критичны веб-версии. Под капотом тот же самый Stable Diffusion, несколько сотен моделей (в основном аниме), умеет в редактор поз и ещё много во что.
Даже этот сервис лучше шедеврумов бинга.

Ответить
Развернуть ветку
48 комментариев
Раскрывать всегда