Обзор на ERNIE‑Image. Китайский поисковик Baidu бесплатно выкатил открытую нейросеть, которая рвёт конкурентов в генерации текста внутри изображений

ERNIE‑Image — это новая открытая модель от Baidu, которая неожиданно ворвалась в топ генераторов изображений. Она создана на базе Diffusion Transformer (DiT) и при размере всего 8B параметров показывает результаты уровня моделей в 2–3 раза больше. Главная фишка — идеальный рендер текста прямо внутри картинки, включая длинные абзацы, китайский и английский, сложные макеты и постеры.

Обзор на ERNIE‑Image. Китайский поисковик Baidu бесплатно выкатил открытую нейросеть, которая рвёт конкурентов в генерации текста внутри изображений

Если Midjourney — это про красоту, а FLUX — про стиль, то ERNIE‑Image — это про структуру, точность и текст, что делает её уникальной.

🔍 Что такое ERNIE‑Image

ERNIE‑Image — это open‑source модель text‑to‑image, разработанная Baidu и выпущенная под лицензией Apache 2.0. Она построена на single‑stream Diffusion Transformer, что позволяет ей: лучше понимать структуру сцены, точнее следовать инструкциям, рендерить текст без ошибок, создавать сложные макеты (постеры, комиксы, UI‑мокапы)

Модель доступна в двух версиях:

  • ERNIE‑Image (SFT) — максимальное качество
  • ERNIE‑Image‑Turbo — ускоренная версия (8 шагов) с улучшенной эстетикой

🧠 На чём она работает: DiT + Prompt Enhancer

ERNIE‑Image использует два ключевых компонента:

1. Diffusion Transformer (DiT)

Это современная архитектура, которая заменяет U‑Net и обеспечивает: высокую детализацию, стабильность, лучшее понимание сложных инструкций, гибкость в стилях

2. Prompt Enhancer

Лёгкая языковая модель, которая расширяет короткие запросы в структурированные описания, чтобы генерация была точнее. Это особенно важно для постеров, инфографики и UI‑дизайна.

Обзор на ERNIE‑Image. Китайский поисковик Baidu бесплатно выкатил открытую нейросеть, которая рвёт конкурентов в генерации текста внутри изображений

⭐ ERNIE‑Image как идеальный генератор манги, комиксов и много‑панельных макетов

Одно из самых сильных преимуществ ERNIE‑Image — это то, что модель изначально обучена на структурированных визуальных задачах, которые ломают большинство других генераторов. По данным официальной модели и демо, ERNIE‑Image специально оптимизирована под: комикс‑панели, мангу, многостраничные макеты, сториборды, визуальные сетки, постеры с большим количеством текста.

Это не просто «умеет рисовать мангу» — это единственная open‑source модель, которая стабильно держит: одинаковый стиль между панелями, одинаковые лица персонажей, правильную структуру сетки, читаемые диалоги в «speech bubbles», точное расположение объектов в каждой сцене.

Большинство моделей (Midjourney, Stable Diffusion, FLUX) ломаются на таких задачах: текст превращается в «кашу», панели смешиваются, композиция разваливается. ERNIE‑Image же создана именно для структурированных визуальных форматов, поэтому многие художники и создатели контента уже называют её лучшим open‑source генератором для манги и комиксов.

🚀 Ключевые возможности ERNIE‑Image (в одну строку)

Идеальный рендер текста, китайский + английский, сложные макеты, комиксы, постеры, UI‑мокапы, фотостиль, структурированные сцены, open‑source, быстрый Turbo‑режим.

Обзор на ERNIE‑Image. Китайский поисковик Baidu бесплатно выкатил открытую нейросеть, которая рвёт конкурентов в генерации текста внутри изображений

⭐ Чем ERNIE‑Image выделяется среди других моделей

1. Лучший текст в изображениях среди open‑source моделей

Модель отлично рендерит длинные абзацы, заголовки, подписи, диалоги, включая китайский и английский. Это подтверждают результаты LongTextBench (0.9733) и GENEval (0.8856).

2. Создание структурированных макетов

ERNIE‑Image идеально подходит для: постеров, инфографики, комиксов, сторибордов, UI‑мокапов, продуктовых карточек

3. Открытая и бесплатная для коммерции

Apache 2.0 — можно использовать в бизнесе без ограничений.

4. Работает на обычных видеокартах

Достаточно 24 GB VRAM, чтобы запускать модель локально.

5. Turbo‑режим — генерация за 8 шагов

Быстро, удобно, идеально для итераций.

🎨 Для кого подходит ERNIE‑Image:

Дизайнеров, маркетологов, создателей постеров, UI/UX специалистов, авторов комиксов, тех, кому нужен текст, внутри изображения, разработчиков, которым нужна open‑source модель.

Это не просто «картинки ради картинок» — это рабочий инструмент для контента.

Обзор на ERNIE‑Image. Китайский поисковик Baidu бесплатно выкатил открытую нейросеть, которая рвёт конкурентов в генерации текста внутри изображений

⭐ Итог

ERNIE‑Image — это мощная, открытая и удивительно точная модель от Baidu, которая делает то, что плохо удаётся большинству генераторов: красиво и правильно рендерит текст, создаёт сложные макеты и следует инструкциям без фантазий. Если тебе нужны постеры, UI‑мокапы, комиксы или инфографика — ERNIE‑Image сейчас один из лучших вариантов в open‑source.

А если вам ещё больше интересна тема ИИ и технологий, вы хотите знать больше и не пропускать новинки и обзоры — подпишитесь на канал в Telegram:

4
1
Начать дискуссию