Как нейросети раскрывают секреты работы мозга

До недавнего времени процесс обработки языка в мозге оставался чёрным ящиком: нейронаука пыталась разгадать тайну речи, а ИИ изучал язык независимо от биологии.

Последние исследования инженеров из Google Research и ученых из Принстонского университета дали удивительный результат: внутренние вектора (эмбеддинги) популярных языковых моделей неожиданно точно совпадают с паттернами активности нейронов нашего мозга во время естественного общения.

🔺 Что именно сделали исследователи?

Они взяли Whisper — трансформерную модель, созданную для превращения человеческой речи в текст (speech-to-text). Затем записали нейронную активность испытуемых во время свободных живых разговоров (причем на глубоком уровне — через инвазивные электроды непосредственно на поверхности мозга). Полученные данные сравнили с двумя видами эмбеддингов модели:

▪ Speech-эмбеддинги (отвечающие за акустическое декодирование звуков речи)

▪ Language-эмбеддинги (которые отвечают уже за значение слов и контекст разговора)

Оказалось, что эмбеддинги Whisper с высокой точностью коррелируют с реальной активностью главных речевых зон мозга:

🔹 При восприятии речи, speech-эмбеддинги четко соответствуют активности в височной области мозга, ответственной за восприятие звуков. А спустя буквально доли секунды language-эмбеддинги отражают активность «зоны Брока» (нижняя лобная извилина), занимающейся расшифровкой смысла слов и фраз.

🔹 При производстве речи, мозг проходит обратный путь: сначала зоны Брока активируются по эмбеддингам языка (формирование смысла), затем в моторной коре включаются speech-эмбеддинги (планирование звуков речи), а уже после произнесения слова мозг снова использует speech-эмбеддинги для контроля собственной речи.

Это первое столь мощное подтверждение гипотезы, что внутренние пространства современных deep learning-моделей соответствуют тому, как наш мозг обрабатывает язык. Более того, модель Whisper создавалась исключительно для задач распознавания речи и не была вдохновлена архитектурой мозга. И тем не менее — она практически идеально отражает нейронные процессы.

🔺 Почему это важно?

Во-первых, теперь мы получили инструмент для прогнозирования и понимания деятельности мозга в реальном времени на базе эмбеддингов языковых моделей. Это буквально может вывести нейронауку на новый уровень.

Во-вторых, есть фундаментальная находка, что мозг организован не жесткой, а «мягкой иерархией»: даже высокая зона вроде Брока уделяет внимание не только смыслу, но иногда обрабатывает и более низкие уровни акустических свойств речи, а звуковые речевые зоны, наоборот, иногда учитывают семантику.

Схожесть ментальных процессов и вычислений внутри нейросетей и человеческого мозга теперь подтверждается экспериментально, а не просто на уровне аналогий. Как выясняют авторы проекта, наш мозг активно прогнозирует следующее слово и испытывает «удивление» в зависимости от совпадения с ожиданием — ровно так же, как это происходит в языковых моделях с предсказанием следующего слова.

🔺 Есть и важные отличия.

Если языковые модели работают со словами массово и параллельно (сотни токенов сразу), наш мозг действует последовательно и рекуррентно — одно слово за другим, шаг за шагом, перебирая сложные ассоциации и контексты.

Эти различия в архитектуре сигнализируют о том, как можно улучшать и развивать искусственные сети, вдохновляясь биологическими принципами. Совместная работа нейробиологов и ИИ-инженеров в перспективе приведет к созданию более эффективных, адаптивных и «живых» моделей обработки информации, чем используемые сейчас трансформеры.

Подписывайтесь на Telegram-канал Нейрократия.