36 слоёв, миллиарды операций, одна случайность. Так рождается каждый ответ ChatGPT

Шаг первый: текст превращается в числа

Нейросеть не видит слова — она видит токены. Каждый токен — это кусочек текста (слово или несколько букв) с уникальным номером в словаре. «Кот» — номер 4821, «Привет» — 1337.

Но номер сразу конвертируется в вектор из ~4096 чисел с плавающей запятой. В процессе обучения модель сама нашла себе ~4096 характеристик для описания любого понятия: эмоциональность, конкретность, принадлежность к живому существу, действию, времени. Только эти характеристики — не человеческие, а собственные, и нам они неизвестны.

Слово «кот» для нейросети — не слово, а вектор из тысяч чисел, кодирующий всё, что модель знает об этом понятии.

Шаг второй: токены начинают «общаться»

Каждый токен имеет три роли одновременно:

Key — насколько он интересен окружающим. Query — что он хочет узнать от других. Value — что расскажет тому, кто спросит.

Все токены одновременно смотрят друг на друга: «А ты мне важен?» Токен «не» тянется к «люблю» — отрицание меняет смысл. Токен «банк» ищет «деньги» или «река» — от этого зависит весь контекст.

Это self-attention — сердце трансформера. Матрица Query умножается на матрицу Key, формируется маска внимания, через которую фильтруются Value всех токенов. Каждый токен получает своё представление о контексте.

Важное ограничение: каждый токен видит только тех, кто стоит до него. Будущее закрыто — намеренно, чтобы модель при обучении не подглядывала в ответ.

Шаг третий: токены «осмысляют» увиденное

После self-attention каждый токен проходит через Feed-Forward Network. Вектор из 4096 чисел временно раздувается до ~12 000 параметров — там включается фильтр: яркие сигналы притупляются, слабые гасятся. Затем всё сжимается обратно в 4096 чисел.

Математически — это жёсткий набор правил: «если такой-то набор признаков, выдать вот такой результат». Правил — миллиарды, и они работают одновременно.

И так — 36 раз подряд

Один цикл «общение + осмысление» — один слой трансформера. В маленьких моделях их 12–24, в крупных — до 100 и больше. В Qwen3 8B — 36 слоёв.

На каждом слое матрицы внимания разные, правила другие. На первых слоях модель замечает грамматику и соседние слова. К 36-му — она уже работает со смыслом, логикой и контекстом всего текста.

Финал: монетка решает, что написать

После всех слоёв последний токен формирует распределение вероятностей: «кот» — 34%, «пёс» — 18%, «человек» — 5%...

Затем — единственный случайный момент во всём процессе: выбирается токен с учётом весов вероятностей. Именно поэтому модель каждый раз отвечает немного по-разному на один и тот же запрос.

Выбранный токен дописывается в конец текста, и весь процесс запускается заново. Слово за словом — так рождается ответ.

Так думает ли нейросеть?

Технически — что-то похожее на мышление происходит. Каждый токен формирует «мнение» о том, что будет дальше, происходит голосование, строится цепочка рассуждений.

Модели с режимом Extended Thinking (Claude) или «размышлениями» (DeepSeek) буквально пишут промежуточные рассуждения перед ответом — и от этого качество ответов растёт.

Но называть это «сознанием» — другой разговор. Пока это предсказание следующего токена. Просто предсказание настолько глубокое, что начинает выглядеть как мышление.

📌 Итоги: главное за 1 минуту

🗓 500+ млн человек регулярно используют нейросети прямо сейчас

🧠 Каждый ответ — результат работы десятков миллиардов параметров

🔁 Один токен проходит через 36+ слоёв прежде, чем вы увидите следующее слово

🎲 Единственная случайность — финальный выбор токена. Всё остальное — математика

🚀 MoE-архитектура — часть сети «спит», пока другая работает. Это в разы быстрее

⚡ Следующий рубеж — не языковые модели, а агенты, которые сами ставят и решают задачи

⚠ Главный вопрос уже не «умеет ли нейросеть думать», а «где заканчивается инструмент и начинается нечто большее»

Рассказываю как бесплатно пользоваться нейросетями и автоматизировать жизнь, экономя сотни часов, в моём канале.

Начать дискуссию