Как нейросеть рисует изображения

Многие представляют, что генеративная нейросеть создаёт изображение так же, как художник с графическим планшетом — поочерёдно прорисовывая пиксель за пикселем. Однако в действительности подход кардинально отличается.

Современные диффузионные модели не рисуют изображения напрямую — они восстанавливают их из хаоса. Это не процесс создания в привычном смысле, а сложная процедура пошагового устранения энтропии, подчинённая законам вероятности, машинного обучения и математической оптимизации.

Основу современных моделей визуальной генерации (таких как Stable Diffusion, Midjourney, DALL·E) составляет метод диффузии — процесс, при котором изображение восстанавливается из шумового состояния. Во время обучения нейросеть получает реальные изображения, к которым шаг за шагом добавляется гауссов шум. Затем модель обучается выполнять обратную операцию — поэтапно очищать зашумлённые данные, приближаясь к исходному изображению. Это и есть суть обратной диффузии.

Диффузия — в данном контексте это процесс постепенного добавления шума к данным, который затем используется для обучения модели восстанавливать информацию обратно.
В свою очередь, обратная диффузия — процесс восстановления изображения из зашумленного состояния.

Таким образом, генерация — это не акт рисования, а процесс предсказания и удаления лишнего. Модель стартует с абсолютно случайного состояния — массива шумовых данных — и постепенно превращает его в осмысленное изображение, соответствующее заданному текстовому описанию.

Процесс генерации можно описать в виде повторяющейся итерации:

Начальное состояние — случайный тензор в латентном пространстве.
Шаги денойзинга — на каждом этапе модель предсказывает, какая часть шума должна быть устранена, чтобы приблизиться к смысловому ориентиру.
Условная направленность — каждый шаг учитывает внешний сигнал в виде текста-запроса, преобразованного в вектор признаков (semantic embedding).

Тензор — многомерный массив чисел, базовая структура данных в машинном обучении.

Этот цикл повторяется десятки или сотни раз. С каждым шагом изображение становится всё более структурированным, понятным и визуально близким к заданному запросу.

Текстовая подсказка (prompt) не интерпретируется напрямую как «название файла» или «ключевое слово». Вместо этого она обрабатывается языковой моделью (например, CLIP или BERT), которая преобразует её в вектор признаков — числовое представление смысла запроса. Этот вектор используется в качестве условия при каждом шаге денойзинга.

Формально, модель решает задачу условного моделирования: восстанавливает изображение не просто из шума, а такой образ, который соответствует семантическому вектору текста. Это похоже на магнитное поле, которое притягивает хаотичную массу данных к определённой тематике, стилю и композиции.

Выбор шума в качестве начальной точки обусловлен универсальностью. Шум не содержит в себе предопределённой структуры, он — максимально энтропийное, нейтральное состояние, из которого можно получить что угодно. Таким образом, модель не ограничена заранее заданной формой или стилем — она начинает с «белого листа» в статистическом смысле.

Это даёт три ключевых преимущества:

Универсальность: один и тот же алгоритм можно применять для любых тем, объектов, стилей.
Повторяемость: генерация может быть детерминирована при фиксированном сидe (random seed).
Управляемость: пользователи могут модифицировать процесс с помощью масок, скетчей, LoRA, ControlNet и других методов.

Для человека шум — это визуально хаотичная смесь серых и чёрных пикселей. Однако модель не «видит» изображение в привычном смысле. Она оперирует тензорами.

Пример:

Обычное изображение RGB 512×512 — это тензор размером [3, 512, 512].
После преобразования в латентное пространство — тензор, например, [4, 64, 64], где каждая величина — не цвет, а признак: граница, форма, текстура, направление света и т.д.

Таким образом, «шум» — это не цветовая каша, а случайный вектор в высокоразмерном пространстве признаков.

Каждый шаг денойзинга представляет собой итеративный процесс:

Вход: текущий тензор (смешанный шум и структура).
Предсказание: модель вычисляет компонент шума, который необходимо устранить.
Коррекция: результат сохраняется как новый тензор, ближе к финальному изображению.

Математически это выражается как минимизация функции потерь между ожидаемым (условным) распределением признаков и текущим состоянием. Повторение этой процедуры (обычно от 20 до 100 раз) позволяет получить стабильный, управляемый результат, соответствующий смыслу текста.

Поле случайных пикселей, напоминающее «зерно» на старом телевизоре. Нейросеть начинает с тензора, заполненного случайными значениями. Это и есть «максимальная энтропия».

Шаг 10

Шум становится менее резким. Появляются размытые участки, но никаких форм ещё не читается. Модель начинает снижать уровень шума. Пока она делает это «вслепую» — без привязки к конкретным объектам.

Локальные различия в тоне и плотности. Некоторые области выглядят светлее и плавнее, другие — более плотные. В векторе признаков начинают проявляться паттерны — предпосылки к форме, фону, объектам.

Уже можно разглядеть силуэт фигуры — что-то напоминающее воина, и очертания гор на фоне. Модель находит наиболее вероятные комбинации признаков: объём, анатомия, контур доспехов, перспектива.

Броня, шлем, поза — всё видно, хотя картинка ещё слегка «зашумлена». Процесс денойзинга почти завершён. Модель уточняет формы, добавляет текстуры и глубину. Тонкие связи между светом, материалом и контекстом становятся определёнными.

Чёткий рисунок воина в доспехах на фоне гор. Свет, текстуры, перспектива — всё проработано. Финальное состояние тензора полностью соответствует вероятностной реконструкции исходного образа из шума, направляемого текстом. Все шумовые элементы удалены.

Генерация изображений в нейросетях — это информированная трансформация латентного шума в визуально осмысленную структуру. На каждом этапе система делает не креативный выбор, а наиболее вероятное изменение, приближающее шум к заданному семантическому вектору. Соответственно, ИИ не рисуют изображения в традиционном понимании.

Больше о нейросетях на моём телеграм-канале!

Как нейросеть рисует изображения

Генерация через восстановление

Алгоритм генерации

Роль текста в визуальной генерации

Почему генерация начинается с шума?

Что такое шум с точки зрения нейросети?

Шаги «очищения шума»

Рассмотрим на примере

Шаг 0

Шаг 25

Шаг 50

Шаг 75

Шаг 100

Что же можно сказать по итогу?