36 слоёв, миллиарды операций, одна случайность. Так рождается каждый ответ ChatGPT
Шаг первый: текст превращается в числа
Нейросеть не видит слова — она видит токены. Каждый токен — это кусочек текста (слово или несколько букв) с уникальным номером в словаре. «Кот» — номер 4821, «Привет» — 1337.
Но номер сразу конвертируется в вектор из ~4096 чисел с плавающей запятой. В процессе обучения модель сама нашла себе ~4096 характеристик для описания любого понятия: эмоциональность, конкретность, принадлежность к живому существу, действию, времени. Только эти характеристики — не человеческие, а собственные, и нам они неизвестны.
Слово «кот» для нейросети — не слово, а вектор из тысяч чисел, кодирующий всё, что модель знает об этом понятии.
Шаг второй: токены начинают «общаться»
Каждый токен имеет три роли одновременно:
Key — насколько он интересен окружающим. Query — что он хочет узнать от других. Value — что расскажет тому, кто спросит.
Все токены одновременно смотрят друг на друга: «А ты мне важен?» Токен «не» тянется к «люблю» — отрицание меняет смысл. Токен «банк» ищет «деньги» или «река» — от этого зависит весь контекст.
Это self-attention — сердце трансформера. Матрица Query умножается на матрицу Key, формируется маска внимания, через которую фильтруются Value всех токенов. Каждый токен получает своё представление о контексте.
Важное ограничение: каждый токен видит только тех, кто стоит до него. Будущее закрыто — намеренно, чтобы модель при обучении не подглядывала в ответ.
Шаг третий: токены «осмысляют» увиденное
После self-attention каждый токен проходит через Feed-Forward Network. Вектор из 4096 чисел временно раздувается до ~12 000 параметров — там включается фильтр: яркие сигналы притупляются, слабые гасятся. Затем всё сжимается обратно в 4096 чисел.
Математически — это жёсткий набор правил: «если такой-то набор признаков, выдать вот такой результат». Правил — миллиарды, и они работают одновременно.
И так — 36 раз подряд
Один цикл «общение + осмысление» — один слой трансформера. В маленьких моделях их 12–24, в крупных — до 100 и больше. В Qwen3 8B — 36 слоёв.
На каждом слое матрицы внимания разные, правила другие. На первых слоях модель замечает грамматику и соседние слова. К 36-му — она уже работает со смыслом, логикой и контекстом всего текста.
Финал: монетка решает, что написать
После всех слоёв последний токен формирует распределение вероятностей: «кот» — 34%, «пёс» — 18%, «человек» — 5%...
Затем — единственный случайный момент во всём процессе: выбирается токен с учётом весов вероятностей. Именно поэтому модель каждый раз отвечает немного по-разному на один и тот же запрос.
Выбранный токен дописывается в конец текста, и весь процесс запускается заново. Слово за словом — так рождается ответ.
Так думает ли нейросеть?
Технически — что-то похожее на мышление происходит. Каждый токен формирует «мнение» о том, что будет дальше, происходит голосование, строится цепочка рассуждений.
Модели с режимом Extended Thinking (Claude) или «размышлениями» (DeepSeek) буквально пишут промежуточные рассуждения перед ответом — и от этого качество ответов растёт.
Но называть это «сознанием» — другой разговор. Пока это предсказание следующего токена. Просто предсказание настолько глубокое, что начинает выглядеть как мышление.
📌 Итоги: главное за 1 минуту
🗓 500+ млн человек регулярно используют нейросети прямо сейчас
🧠 Каждый ответ — результат работы десятков миллиардов параметров
🔁 Один токен проходит через 36+ слоёв прежде, чем вы увидите следующее слово
🎲 Единственная случайность — финальный выбор токена. Всё остальное — математика
🚀 MoE-архитектура — часть сети «спит», пока другая работает. Это в разы быстрее
⚡ Следующий рубеж — не языковые модели, а агенты, которые сами ставят и решают задачи
⚠ Главный вопрос уже не «умеет ли нейросеть думать», а «где заканчивается инструмент и начинается нечто большее»
Рассказываю как бесплатно пользоваться нейросетями и автоматизировать жизнь, экономя сотни часов, в моём канале.