Обзор на ERNIE‑Image. Китайский поисковик Baidu бесплатно выкатил открытую нейросеть, которая рвёт конкурентов в генерации текста внутри изображений
ERNIE‑Image — это новая открытая модель от Baidu, которая неожиданно ворвалась в топ генераторов изображений. Она создана на базе Diffusion Transformer (DiT) и при размере всего 8B параметров показывает результаты уровня моделей в 2–3 раза больше. Главная фишка — идеальный рендер текста прямо внутри картинки, включая длинные абзацы, китайский и английский, сложные макеты и постеры.
Если Midjourney — это про красоту, а FLUX — про стиль, то ERNIE‑Image — это про структуру, точность и текст, что делает её уникальной.
🔍 Что такое ERNIE‑Image
ERNIE‑Image — это open‑source модель text‑to‑image, разработанная Baidu и выпущенная под лицензией Apache 2.0. Она построена на single‑stream Diffusion Transformer, что позволяет ей: лучше понимать структуру сцены, точнее следовать инструкциям, рендерить текст без ошибок, создавать сложные макеты (постеры, комиксы, UI‑мокапы)
Модель доступна в двух версиях:
- ERNIE‑Image (SFT) — максимальное качество
- ERNIE‑Image‑Turbo — ускоренная версия (8 шагов) с улучшенной эстетикой
🧠 На чём она работает: DiT + Prompt Enhancer
ERNIE‑Image использует два ключевых компонента:
1. Diffusion Transformer (DiT)
Это современная архитектура, которая заменяет U‑Net и обеспечивает: высокую детализацию, стабильность, лучшее понимание сложных инструкций, гибкость в стилях
2. Prompt Enhancer
Лёгкая языковая модель, которая расширяет короткие запросы в структурированные описания, чтобы генерация была точнее. Это особенно важно для постеров, инфографики и UI‑дизайна.
⭐ ERNIE‑Image как идеальный генератор манги, комиксов и много‑панельных макетов
Одно из самых сильных преимуществ ERNIE‑Image — это то, что модель изначально обучена на структурированных визуальных задачах, которые ломают большинство других генераторов. По данным официальной модели и демо, ERNIE‑Image специально оптимизирована под: комикс‑панели, мангу, многостраничные макеты, сториборды, визуальные сетки, постеры с большим количеством текста.
Это не просто «умеет рисовать мангу» — это единственная open‑source модель, которая стабильно держит: одинаковый стиль между панелями, одинаковые лица персонажей, правильную структуру сетки, читаемые диалоги в «speech bubbles», точное расположение объектов в каждой сцене.
Большинство моделей (Midjourney, Stable Diffusion, FLUX) ломаются на таких задачах: текст превращается в «кашу», панели смешиваются, композиция разваливается. ERNIE‑Image же создана именно для структурированных визуальных форматов, поэтому многие художники и создатели контента уже называют её лучшим open‑source генератором для манги и комиксов.
🚀 Ключевые возможности ERNIE‑Image (в одну строку)
Идеальный рендер текста, китайский + английский, сложные макеты, комиксы, постеры, UI‑мокапы, фотостиль, структурированные сцены, open‑source, быстрый Turbo‑режим.
⭐ Чем ERNIE‑Image выделяется среди других моделей
1. Лучший текст в изображениях среди open‑source моделей
Модель отлично рендерит длинные абзацы, заголовки, подписи, диалоги, включая китайский и английский. Это подтверждают результаты LongTextBench (0.9733) и GENEval (0.8856).
2. Создание структурированных макетов
ERNIE‑Image идеально подходит для: постеров, инфографики, комиксов, сторибордов, UI‑мокапов, продуктовых карточек
3. Открытая и бесплатная для коммерции
Apache 2.0 — можно использовать в бизнесе без ограничений.
4. Работает на обычных видеокартах
Достаточно 24 GB VRAM, чтобы запускать модель локально.
5. Turbo‑режим — генерация за 8 шагов
Быстро, удобно, идеально для итераций.
🎨 Для кого подходит ERNIE‑Image:
Дизайнеров, маркетологов, создателей постеров, UI/UX специалистов, авторов комиксов, тех, кому нужен текст, внутри изображения, разработчиков, которым нужна open‑source модель.
Это не просто «картинки ради картинок» — это рабочий инструмент для контента.
⭐ Итог
ERNIE‑Image — это мощная, открытая и удивительно точная модель от Baidu, которая делает то, что плохо удаётся большинству генераторов: красиво и правильно рендерит текст, создаёт сложные макеты и следует инструкциям без фантазий. Если тебе нужны постеры, UI‑мокапы, комиксы или инфографика — ERNIE‑Image сейчас один из лучших вариантов в open‑source.