Рейтинг нейросетей для генерации изображений
Привет, решили разобрать для себя «какой из сервисов реально лучше» для ежедневных офисных задач. В интернете сотни «убийц» ChatGPT и Midjourney. Давайте разбираться!
Для каждого сервиса мы использовали 14 различных по смыслу, сложности и стилю промптов. Каждая генерация оценивалась отдельно и сравнивалась с генерациями других сервисов, оценивалось качество изображения и решение задачи промпта (понимание). Помимо генерации в итоговом рейтинге мы оценили функциональность, юзабилити, сложность входа (доступность в РФ, требования к vpn, наличие триалов и пр.) надежность и производительность. Стоимость оставили за границей рейтинга. (Мы в телеграм)
В оценку взяли большинство сервисов, которые гуляли по интернету в различных «картинках-рейтингах» и отобрали те, их них, которые можно было протестировать бесплатно (итого 11 шт). Ловите то, что получилось:
Поехали!
ГЕНЕРАЦИИ
Средний результат по всем сервисам - 3.07 из максимальных 5 (что в целом очень неплохо). Нет желания грузить списком сгенерированных картинок, примеры:
Хуже всего генераторы изображений справляются с запросом объединения лица человека и животного в единую полноразмерную картинку (a full-body, high-quality, photorealistic image of achimera composed of the head of a slightly chubby 35-year-old man with a small dark beard and an earringin one ear, and the body of a corgi dog. The chimera should maintain anthropometric proportions and appear as if it was captured on a professional camera during sunset lighting. Ideally, the chimera should be walking on a leash held by a tall woman). Худший средний балл запроса по всем сервисам - 1.80. Никто не справился, но за качество генерации у MJ балл чуть выше.
Странно, что почти все сервисы справились с объединением животных из зебры и жирафа(magical animal in the form of a giraffe with zebra skin on the background of the zoo) . Средний балл - 3.50.
Наиболее простая генерация для каждого из сервисов - киберпанк киборг (Cyborg in exoskeleton with arm manipulator in cyberpunk style). Средний балл 4.00.
Запрос для демо несуществующего технорешения, оказался сложным, видимо, слишком много объектов необходимо было объединить в изображении, но некоторые результаты вполне можно использовать (robotic platform, on it stands a tripod with a camera, it rides on pipe rails through an industrial greenhouse in which cucumbers grow, super realistic, 4k). Средний балл 2.91
Интересный запрос на мальчика в ветхой одежде, некоторые сети поняли, что к ветхости было бы неплохо добавить грустные лица. Интересно (видимо, ChatGPT под капотом делает понимает запроса глубже, Kandinsky справляется с этой задачей тоже безупречно, но с худшим качеством). Средний балл 3.67
Ночь, улица, фонарь, аптека – неберущийся запрос для текущих версий нейросетей (neon sign with the word "pharmacy", night, street, lamp). Средний балл 2.8
Создание логотипа в виде кота в каске. Некоторые сети с упорностью выдавали полностью провальные ответы. Средний балл 3.40
ВЫВОДЫ
· Текущие версии сетей не умеют «в генерацию текста» и не умеют скрещивать объекты по сложным запросам с людьми
· Только Бинг и Кандинский понимают русский язык
· Многие сервисы абсолютно не стоят того, чтобы за них платить
· Плохой интерфейс и слабая функциональность портят даже самые лучшие генераторы
· Сложная регистрация и необходимость VPN для многих будут стопфакторами
· Есть отличные сервисы с бесплатной или ограниченно бесплатной версией
НОМИНАЦИИ
Логику рейтинга можно посмотреть в Google таблицы (будем рады критике и обсуждению для дальнейшего совершенствования).
Убийцы миджоурней.. А в итоге вышеупомянутый почти везде лучше остальных.
Так оно и есть, ведь это MJ шедевр. Рисует красиво. Первое впечатление было, что она лучшая, но язык и запрос Bing с gpt на борту понимает на порядок лучше
Потому у него почти все генерации полностью соответствует запросу без танцев с бубном. Также, в рейтинге учитывали проблемы с интерфейсов и юзабилити. Пользовательский опыт MJ с переходом в Дискорд и корявым получение результатов - ну такое
SD XL почти догнал на самом деле
о, спасибо за ссылки на сервисы
+1
На проекте с 19.05.2023
На stable diffusion куча разновидностей, которые дают сопоставимый с midjourney результат, но с бОльшим контролем и возможностями в интерфейсах automatic1111 и vladmandic типа тех же inpainting, ControlNet.
Есть примеры хороших сервисов, для себя интересуюсь. В рейтинге 5 сервисов, которые под капотом используют SD (dreamstudio и leica очень достойные, но не идеально)
Кандинский очень неплох.
Правда, зачастую выдаёт что-то совсем мрачное даже на нейтральных запросах.
Тест пальцами почти прошёл) Вероятно, чтобы избежать проблем с неправильным количеством пальцев, количество пальцев там "захардкодили".
Вы явно делали что-то очень неправильное, раз Stable Diffusion показала худшие результаты в рисовании лиц. Вот пара работ, выполненных на среднем уровне и с ошибками.
Если немного постараться, то на Stable Diffusion можно достичь полной фотореалистичности.
В чем вопрос? Были подготовлены просты единые для всех, были оттестированы сети. 3/5/6 места с совсем маленьким отставанием за сервисами с SDXL на борту
кандиский лучше миджорни?
АХАХАх, автор говна поел
Ну посмотри в файлы и в попадание в запрос MJ и Кандинского. Качество генерации у MJ на голову выше, но интерфейс, доп функции, юзабилити и решение прикладной задачи у Кандинского оказалось на уровне
Да, с языка сняли
Спасибочки!😊
Как все нейросети, пока что криво, но неплохо
Про ночь улица фонарь аптека - враньё
Вы точно посмотрели промпт? Там нужна была надпись на неоновой вывеске «pharmacy”. Запросы доступны по гугл ссылке, да и в описании
Midjorney вы как то недооценили по баллам
Почти на том же уровне, что и первые 4 сервиса
сами каким из них больше всего пользуетесь?
Теперь Bing, просто, быстро, качественно, если нужно сделать прямоугольную картинку для презентаций - Кандинский с постепенным наращиванием вправо/лево от первоначального запроса