🧬 Первое из трех, якобы «непреодолимых» для ИИ препятствий, пройдено.

Исследование MIT обнаружило у языковой модели пространственно- временную картину мира.

Исследование группы Макса Тегмарка в MIT “Language models represent space and time” представило доказательства того, что большие языковые модели (LLM) – это не просто системы машинного обучения на огромных коллекциях поверхностных статистических данных. LLM строят внутри себя целостные модели процесса генерации данных - модели мира.

Авторы подробно описывают доказательства того, что LLM обучаются линейным представлениям пространства и времени в различных масштабах и эти представления устойчивы к вариациям подсказок и унифицированы для различных типов объектов (например, городов и достопримечательностей).

Кроме того, авторы выявили отдельные "нейроны пространства" и "нейроны времени", которые надежно кодируют пространственные и временные координаты.

Представленный авторами анализ показывает, что современные LLM приобретают структурированные знания о таких фундаментальных измерениях, как пространство и время, что подтверждает мнение о том, что LLM усваивают не просто поверхностную статистику, а буквальные модели мира.⚡

Желающим проверить результаты исследования и выводы авторов сюда (модель с открытым кодом доступна для любых проверок).

P.S. На приложенном видео показана динамика появления варианта картины мира в 53 слоях модели Llama-2 с 70 млрд. параметров.

Начать дискуссию