Как нейросеть рисует изображения
Многие представляют, что генеративная нейросеть создаёт изображение так же, как художник с графическим планшетом — поочерёдно прорисовывая пиксель за пикселем. Однако в действительности подход кардинально отличается.
Современные диффузионные модели не рисуют изображения напрямую — они восстанавливают их из хаоса. Это не процесс создания в привычном смысле, а сложная процедура пошагового устранения энтропии, подчинённая законам вероятности, машинного обучения и математической оптимизации.
Генерация через восстановление
Основу современных моделей визуальной генерации (таких как Stable Diffusion, Midjourney, DALL·E) составляет метод диффузии — процесс, при котором изображение восстанавливается из шумового состояния. Во время обучения нейросеть получает реальные изображения, к которым шаг за шагом добавляется гауссов шум. Затем модель обучается выполнять обратную операцию — поэтапно очищать зашумлённые данные, приближаясь к исходному изображению. Это и есть суть обратной диффузии.
Диффузия — в данном контексте это процесс постепенного добавления шума к данным, который затем используется для обучения модели восстанавливать информацию обратно.
В свою очередь, обратная диффузия — процесс восстановления изображения из зашумленного состояния.
Таким образом, генерация — это не акт рисования, а процесс предсказания и удаления лишнего. Модель стартует с абсолютно случайного состояния — массива шумовых данных — и постепенно превращает его в осмысленное изображение, соответствующее заданному текстовому описанию.
Алгоритм генерации
Процесс генерации можно описать в виде повторяющейся итерации:
- Начальное состояние — случайный тензор в латентном пространстве.
- Шаги денойзинга — на каждом этапе модель предсказывает, какая часть шума должна быть устранена, чтобы приблизиться к смысловому ориентиру.
- Условная направленность — каждый шаг учитывает внешний сигнал в виде текста-запроса, преобразованного в вектор признаков (semantic embedding).
Тензор — многомерный массив чисел, базовая структура данных в машинном обучении.
Этот цикл повторяется десятки или сотни раз. С каждым шагом изображение становится всё более структурированным, понятным и визуально близким к заданному запросу.
Роль текста в визуальной генерации
Текстовая подсказка (prompt) не интерпретируется напрямую как «название файла» или «ключевое слово». Вместо этого она обрабатывается языковой моделью (например, CLIP или BERT), которая преобразует её в вектор признаков — числовое представление смысла запроса. Этот вектор используется в качестве условия при каждом шаге денойзинга.
Формально, модель решает задачу условного моделирования: восстанавливает изображение не просто из шума, а такой образ, который соответствует семантическому вектору текста. Это похоже на магнитное поле, которое притягивает хаотичную массу данных к определённой тематике, стилю и композиции.
Почему генерация начинается с шума?
Выбор шума в качестве начальной точки обусловлен универсальностью. Шум не содержит в себе предопределённой структуры, он — максимально энтропийное, нейтральное состояние, из которого можно получить что угодно. Таким образом, модель не ограничена заранее заданной формой или стилем — она начинает с «белого листа» в статистическом смысле.
Это даёт три ключевых преимущества:
- Универсальность: один и тот же алгоритм можно применять для любых тем, объектов, стилей.
- Повторяемость: генерация может быть детерминирована при фиксированном сидe (random seed).
- Управляемость: пользователи могут модифицировать процесс с помощью масок, скетчей, LoRA, ControlNet и других методов.
Что такое шум с точки зрения нейросети?
Для человека шум — это визуально хаотичная смесь серых и чёрных пикселей. Однако модель не «видит» изображение в привычном смысле. Она оперирует тензорами.
Пример:
- Обычное изображение RGB 512×512 — это тензор размером [3, 512, 512].
- После преобразования в латентное пространство — тензор, например, [4, 64, 64], где каждая величина — не цвет, а признак: граница, форма, текстура, направление света и т.д.
Таким образом, «шум» — это не цветовая каша, а случайный вектор в высокоразмерном пространстве признаков.
Шаги «очищения шума»
Каждый шаг денойзинга представляет собой итеративный процесс:
- Вход: текущий тензор (смешанный шум и структура).
- Предсказание: модель вычисляет компонент шума, который необходимо устранить.
- Коррекция: результат сохраняется как новый тензор, ближе к финальному изображению.
Математически это выражается как минимизация функции потерь между ожидаемым (условным) распределением признаков и текущим состоянием. Повторение этой процедуры (обычно от 20 до 100 раз) позволяет получить стабильный, управляемый результат, соответствующий смыслу текста.
Рассмотрим на примере
Шаг 0
Шаг 10
Шаг 25
Шаг 50
Шаг 75
Шаг 100
Что же можно сказать по итогу?
Генерация изображений в нейросетях — это информированная трансформация латентного шума в визуально осмысленную структуру. На каждом этапе система делает не креативный выбор, а наиболее вероятное изменение, приближающее шум к заданному семантическому вектору. Соответственно, ИИ не рисуют изображения в традиционном понимании.
Больше о нейросетях на моём телеграм-канале!