🧬 Первое из трех, якобы «непреодолимых» для ИИ препятствий, пройдено.
Исследование MIT обнаружило у языковой модели пространственно- временную картину мира.
Исследование группы Макса Тегмарка в MIT “Language models represent space and time” представило доказательства того, что большие языковые модели (LLM) – это не просто системы машинного обучения на огромных коллекциях поверхностных статистических данных. LLM строят внутри себя целостные модели процесса генерации данных - модели мира.
Авторы подробно описывают доказательства того, что LLM обучаются линейным представлениям пространства и времени в различных масштабах и эти представления устойчивы к вариациям подсказок и унифицированы для различных типов объектов (например, городов и достопримечательностей).
Кроме того, авторы выявили отдельные "нейроны пространства" и "нейроны времени", которые надежно кодируют пространственные и временные координаты.
Представленный авторами анализ показывает, что современные LLM приобретают структурированные знания о таких фундаментальных измерениях, как пространство и время, что подтверждает мнение о том, что LLM усваивают не просто поверхностную статистику, а буквальные модели мира.⚡
Желающим проверить результаты исследования и выводы авторов сюда (модель с открытым кодом доступна для любых проверок).
P.S. На приложенном видео показана динамика появления варианта картины мира в 53 слоях модели Llama-2 с 70 млрд. параметров.