Токены для генерации изображений в Midjourney, Stable Diffusion/SDXL и DALL·E

Токены - то, да не такие. Речь не про технические кусочки текста, а про осмысленные слова-ярлыки в промпте, на которые модели реагируют особенно сильно. В статье разберём всё на примерах, покажем, почему одни формулировки работают лучше синонимов, и соберём готовые шаблоны под фото, CGI, живопись и аниме.

Токены для генерации изображений в Midjourney, Stable Diffusion/SDXL и DALL·E

Что такое «токены» в этой статье? Короткие, устойчивые слова/фразы в промпте (ярлыки стиля), которые модели распознают и стабильно связывают с конкретным визуальным эффектом: cinematic lighting, shot on 85mm, Unreal Engine, oil painting, 1girl и т.п. Это не внутренние технические токены разбиения текста; речь про осмысленные ключевые слова для управления стилем.

Для каких нейросетей применимо

  • Stable Diffusion / SDXL (и производные чекпоинты, в т.ч. аниме-модели) Понимают фото- и CG-термины, а также теговый стиль описаний. Поддерживают negative prompt, веса токенов (token:1.2) / [token:0.8], хорошо реагируют на 85mm, f/1.4, bokeh, Unreal Engine, Danbooru-теги (1girl, blue eyes и т.д.). Токены «качества» вроде masterpiece/best quality работают только в тех чекпоинтах, где они были в обучающих данных; в базовых могут игнорироваться.
  • Midjourney Сильно реагирует на стилистические ярлыки: cinematic, dramatic lighting, octane render, ultra-detailed. Управляется параметрами (--ar, --stylize, --no). Негатив — через --no, а не отдельным полем. Фото- и CG-термины тоже полезны.
  • DALL·E (включая DALL·E 3) Лучший эффект дают чёткие постановки и явные жанры: editorial photo, product photo on white, isometric vector icon. Менее чувствителен к «магическим спискам», чем SD/MJ; приоритет — конкретика сцены, роли и стиля.

Общие принципы составления промпта

  1. Структура: кто/что → действие/поза → сцена → стиль/медиум → свет/камера → качество → (негативный промпт).
  2. Приоритет: важное — в начале.
  3. Лаконичность: 5–12 ключевых токенов вместо полотна прилагательных.
  4. Специфичность: узнаваемые слова лучше редких синонимов.
  5. Итерации: делайте 2–3 быстрых варианта с заменой 1–2 токенов.

Фотореализм и «кино»: что работает

Оптика/камера

  • shot on 85mm / 50mm, f/1.4, shallow depth of field, bokeh, DSLR, RAW photo.

Свет

  • cinematic lighting, golden hour, softbox lighting, backlight, rim light, volumetric light.

Качество/резкость

  • photorealistic, ultra-detailed, 8K, HDR, high dynamic range.

Композиция/ракурс

  • close-up, wide shot, rule of thirds, eye-level, low angle, Dutch angle.

Шаблон

[субъект] в [локация], [время суток], photorealistic, shot on 85mm f/1.4, cinematic lighting, shallow DOF, 8K, rim light

Пример до/после

  • До: woman, city
  • После: confident female executive on Manhattan rooftop at sunset, photorealistic, shot on 85mm f/1.4, cinematic backlight, shallow DOF, ultra-detailed, 8K
Токены для генерации изображений в Midjourney, Stable Diffusion/SDXL и DALL·E

Цифровой арт и живопись

Медиум

  • oil painting, watercolor, gouache, pencil sketch, digital painting, 3D render.

Жанр/направление

  • surrealism, impressionist, art nouveau, dark fantasy, pop art.

Референсы

  • ArtStation, concept art, matte painting, portfolio piece.

Шаблон

Цифровой арт и живопись Медиум oil painting, watercolor, gouache, pencil sketch, digital painting, 3D render. Жанр/направление surrealism, impressionist, art nouveau, dark fantasy, pop art. Референсы ArtStation, concept art, matte painting, portfolio piece. Шаблон

CGI / игровой стиль

Рендер/движок

  • Unreal Engine, Octane render, V-Ray, Arnold, Cinema 4D.

Эффекты

  • ray tracing, global illumination, volumetric fog, bloom, film grain, anamorphic lens flare.

Шаблон

[сцена sci-fi], Unreal Engine, octane render, ray tracing, volumetric fog, cinematic shot, 4K

Пример до/после

  • До: sci-fi street, night
  • После: cyberpunk street at night with neon signs, Unreal Engine, octane render, ray tracing, volumetric fog, cinematic shot, 4K
Токены для генерации изображений в Midjourney, Stable Diffusion/SDXL и DALL·E

Аниме / иллюстрация (теговый стиль)

Теги Danbooru-формата

  • Субъект: 1girl / 1boy
  • Черты: blue eyes, blonde hair, long hair
  • Одежда/сцена: school uniform, outdoors, indoors, evening light
  • Поза/взгляд: looking at viewer, dynamic pose
  • Стиль/качество (зависит от модели): masterpiece, best quality

Шаблон

masterpiece, best quality, 1girl, school uniform, looking at viewer, indoors, warm evening light, anime style

Пример до/после

  • До: anime schoolgirl
  • После: masterpiece, best quality, 1girl, school uniform, looking at viewer, indoors, warm evening light, detailed eyes, anime style
Токены для генерации изображений в Midjourney, Stable Diffusion/SDXL и DALL·E

Специфика по моделям

DALL·E

  • Лучше задавать роль/тип: editorial photo, product photo on white, isometric vector icon.
  • Чёткий контекст сцены важнее «магических» слов.

Midjourney

  • Сильная реакция на стилистические ярлыки: cinematic, dramatic lighting, ultra-detailed, octane render.
  • Параметры: аспект --ar 3:2/16:9, степень стиля --stylize.

Stable Diffusion / SDXL

  • Отлично понимает фото- и CG-термины, поддерживает negative prompt и веса: (token:1.2) усиливает, [token:0.8] ослабляет.

Негативный промпт (особенно для SD/частично MJ)

Убирает дефекты и нежелательные стили:

  • Общие: blurry, out of focus, lowres, jpeg artifacts.
  • Анатомия: extra fingers, deformed hands, bad anatomy.

Шаблон

Negative: blurry, lowres, jpeg artifacts, extra fingers, deformed hands

Как встроить ИИ в процесс, рабочие промпты и кейсы - подписывайтесь на мой ТГ-канал

6
1
2 комментария