Как нейросети раскрывают секреты работы мозга
До недавнего времени процесс обработки языка в мозге оставался чёрным ящиком: нейронаука пыталась разгадать тайну речи, а ИИ изучал язык независимо от биологии.
Последние исследования инженеров из Google Research и ученых из Принстонского университета дали удивительный результат: внутренние вектора (эмбеддинги) популярных языковых моделей неожиданно точно совпадают с паттернами активности нейронов нашего мозга во время естественного общения.
🔺 Что именно сделали исследователи?
Они взяли Whisper — трансформерную модель, созданную для превращения человеческой речи в текст (speech-to-text). Затем записали нейронную активность испытуемых во время свободных живых разговоров (причем на глубоком уровне — через инвазивные электроды непосредственно на поверхности мозга). Полученные данные сравнили с двумя видами эмбеддингов модели:
▪ Speech-эмбеддинги (отвечающие за акустическое декодирование звуков речи)
▪ Language-эмбеддинги (которые отвечают уже за значение слов и контекст разговора)
Оказалось, что эмбеддинги Whisper с высокой точностью коррелируют с реальной активностью главных речевых зон мозга:
🔹 При восприятии речи, speech-эмбеддинги четко соответствуют активности в височной области мозга, ответственной за восприятие звуков. А спустя буквально доли секунды language-эмбеддинги отражают активность «зоны Брока» (нижняя лобная извилина), занимающейся расшифровкой смысла слов и фраз.
🔹 При производстве речи, мозг проходит обратный путь: сначала зоны Брока активируются по эмбеддингам языка (формирование смысла), затем в моторной коре включаются speech-эмбеддинги (планирование звуков речи), а уже после произнесения слова мозг снова использует speech-эмбеддинги для контроля собственной речи.
Это первое столь мощное подтверждение гипотезы, что внутренние пространства современных deep learning-моделей соответствуют тому, как наш мозг обрабатывает язык. Более того, модель Whisper создавалась исключительно для задач распознавания речи и не была вдохновлена архитектурой мозга. И тем не менее — она практически идеально отражает нейронные процессы.
🔺 Почему это важно?
Во-первых, теперь мы получили инструмент для прогнозирования и понимания деятельности мозга в реальном времени на базе эмбеддингов языковых моделей. Это буквально может вывести нейронауку на новый уровень.
Во-вторых, есть фундаментальная находка, что мозг организован не жесткой, а «мягкой иерархией»: даже высокая зона вроде Брока уделяет внимание не только смыслу, но иногда обрабатывает и более низкие уровни акустических свойств речи, а звуковые речевые зоны, наоборот, иногда учитывают семантику.
Схожесть ментальных процессов и вычислений внутри нейросетей и человеческого мозга теперь подтверждается экспериментально, а не просто на уровне аналогий. Как выясняют авторы проекта, наш мозг активно прогнозирует следующее слово и испытывает «удивление» в зависимости от совпадения с ожиданием — ровно так же, как это происходит в языковых моделях с предсказанием следующего слова.
🔺 Есть и важные отличия.
Если языковые модели работают со словами массово и параллельно (сотни токенов сразу), наш мозг действует последовательно и рекуррентно — одно слово за другим, шаг за шагом, перебирая сложные ассоциации и контексты.
Эти различия в архитектуре сигнализируют о том, как можно улучшать и развивать искусственные сети, вдохновляясь биологическими принципами. Совместная работа нейробиологов и ИИ-инженеров в перспективе приведет к созданию более эффективных, адаптивных и «живых» моделей обработки информации, чем используемые сейчас трансформеры.
Подписывайтесь на Telegram-канал Нейрократия.