Alibaba сделали генератор картинок с идеальным текстом без лимитов. Qwen-Image-2.0-Pro ворвался в топ-10 мира

Alibaba выпустили обновление своей модели для генерации изображений Qwen-Image-2.0-Pro. И это не просто минорный апдейт, модель с ходу забралась на 9-е место в мировом рейтинге text-to-image на Arena.

По сути, китайцы сделали мощный инструмент для тех, кто устал от галлюцинаций ИИ и хочет получать предсказуемый, качественный результат.

Текст на картинках наконец-то читается. Это, пожалуй, главный киллер-фича релиза. Глифы отображаются точно, шрифты выглядят единообразно, а компоновка элементов аккуратная даже в сложных макетах. Модель без проблем миксует разные языки на одном изображении без артефактов. Если ты делаешь постеры, макеты интерфейсов или рекламные креативы с кучей текста это жирнейшее улучшение.
Железобетонное следование промпту. Модель намного лучше разбирает сложные, многосоставные запросы. Она корректно размещает несколько объектов в кадре, понимает пространственные отношения и свойства предметов. Если в промпте написано «красный кубик слева от синего шара», она поставит их именно так, а не наоборот.
Качество и стабильность стилей. Подтянули детализацию текстур, согласованность освещения и реалистичность материалов. Это работает и для фотореализма, и для стилизованных артов. Качество стало ровнее по всем художественным направлениям, больше нет провалов из-за того, что модель «не умеет» в какой-то конкретный стиль.
Редактирование и реализм. Qwen-Image-2.0-Pro отлично справляется с редактированием фотографий и созданием реалистичных интерфейсов. Плюс на ModelScope завезли почти безлимитные генерации (в отличие от того же ChatGPT).

Потыкать модель руками и API можно здесь Демо | API

Не отставайте от технологий! Подписывайтесь на Telegram-канал, чтобы быть в курсе последних трендов и лайфхаков.