Обзор на ERNIE‑Image. Китайский поисковик Baidu бесплатно выкатил открытую нейросеть, которая рвёт конкурентов в генерации текста внутри изображений

ERNIE‑Image — это новая открытая модель от Baidu, которая неожиданно ворвалась в топ генераторов изображений. Она создана на базе Diffusion Transformer (DiT) и при размере всего 8B параметров показывает результаты уровня моделей в 2–3 раза больше. Главная фишка — идеальный рендер текста прямо внутри картинки, включая длинные абзацы, китайский и английский, сложные макеты и постеры.

Если Midjourney — это про красоту, а FLUX — про стиль, то ERNIE‑Image — это про структуру, точность и текст, что делает её уникальной.

ERNIE‑Image — это open‑source модель text‑to‑image, разработанная Baidu и выпущенная под лицензией Apache 2.0. Она построена на single‑stream Diffusion Transformer, что позволяет ей: лучше понимать структуру сцены, точнее следовать инструкциям, рендерить текст без ошибок, создавать сложные макеты (постеры, комиксы, UI‑мокапы)

Модель доступна в двух версиях:

ERNIE‑Image (SFT) — максимальное качество
ERNIE‑Image‑Turbo — ускоренная версия (8 шагов) с улучшенной эстетикой

ERNIE‑Image использует два ключевых компонента:

Это современная архитектура, которая заменяет U‑Net и обеспечивает: высокую детализацию, стабильность, лучшее понимание сложных инструкций, гибкость в стилях

Лёгкая языковая модель, которая расширяет короткие запросы в структурированные описания, чтобы генерация была точнее. Это особенно важно для постеров, инфографики и UI‑дизайна.

Одно из самых сильных преимуществ ERNIE‑Image — это то, что модель изначально обучена на структурированных визуальных задачах, которые ломают большинство других генераторов. По данным официальной модели и демо, ERNIE‑Image специально оптимизирована под: комикс‑панели, мангу, многостраничные макеты, сториборды, визуальные сетки, постеры с большим количеством текста.

Это не просто «умеет рисовать мангу» — это единственная open‑source модель, которая стабильно держит: одинаковый стиль между панелями, одинаковые лица персонажей, правильную структуру сетки, читаемые диалоги в «speech bubbles», точное расположение объектов в каждой сцене.

Большинство моделей (Midjourney, Stable Diffusion, FLUX) ломаются на таких задачах: текст превращается в «кашу», панели смешиваются, композиция разваливается. ERNIE‑Image же создана именно для структурированных визуальных форматов, поэтому многие художники и создатели контента уже называют её лучшим open‑source генератором для манги и комиксов.

Идеальный рендер текста, китайский + английский, сложные макеты, комиксы, постеры, UI‑мокапы, фотостиль, структурированные сцены, open‑source, быстрый Turbo‑режим.

Модель отлично рендерит длинные абзацы, заголовки, подписи, диалоги, включая китайский и английский. Это подтверждают результаты LongTextBench (0.9733) и GENEval (0.8856).

ERNIE‑Image идеально подходит для: постеров, инфографики, комиксов, сторибордов, UI‑мокапов, продуктовых карточек

Apache 2.0 — можно использовать в бизнесе без ограничений.

Достаточно 24 GB VRAM, чтобы запускать модель локально.

Быстро, удобно, идеально для итераций.

Дизайнеров, маркетологов, создателей постеров, UI/UX специалистов, авторов комиксов, тех, кому нужен текст, внутри изображения, разработчиков, которым нужна open‑source модель.

Это не просто «картинки ради картинок» — это рабочий инструмент для контента.

ERNIE‑Image — это мощная, открытая и удивительно точная модель от Baidu, которая делает то, что плохо удаётся большинству генераторов: красиво и правильно рендерит текст, создаёт сложные макеты и следует инструкциям без фантазий. Если тебе нужны постеры, UI‑мокапы, комиксы или инфографика — ERNIE‑Image сейчас один из лучших вариантов в open‑source.