Цукерберг строит курс на AGI: 5 проектов на пути к суперинтеллекту

Meta* FAIR анонсировала пять проектов, приближающих создание продвинутого машинного интеллекта (AMI), с акцентом на восприятие ИИ, языковое моделирование, робототехнику и коллаборативных агентов.

Цель Meta* — создать машины, способные воспринимать окружающий мир и принимать решения с человеческой скоростью и точностью.

Perception Encoder — крупномасштабный кодировщик зрения для работы с изображениями и видео. Он объединяет восприятие изображения и текста, устойчив к сложным условиям и способен замечать мельчайшие детали.

Meta* заявляет, что Perception Encoder превосходит все существующие открытые и коммерческие модели в задачах zero-shot классификации и поиска, а также усиливает языковые модели, помогая им лучше решать задачи пространственного понимания.

PLM — открытая модель для сложных задач визуального распознавания, обученная без использования закрытых моделей.

В рамках проекта создан крупнейший датасет для видеоаналитики (2,5 млн примеров) и новый бенчмарк PLM-VideoBench, сфокусированный на тонком понимании действий и пространственно-временных связей.

Meta* Locate 3D позволяет роботам находить объекты в 3D-пространстве по свободным языковым запросам.

Система напрямую обрабатывает облака точек от RGB-D сенсоров и включает в себя:

преобразование 2D-признаков в 3D,
кодировщик 3D-JEPA,
декодер Locate 3D для выделения объектов.

Meta* представила Dynamic Byte Latent Transformer на 8 млрд параметров, работающий с текстом на уровне байтов.

Такой подход повышает устойчивость моделей к ошибкам и новым словам: отмечено улучшение производительности до +55 баллов на специализированных тестах (например, CUTE).

Collaborative Reasoner помогает ИИ-агентам эффективно взаимодействовать между собой и с людьми, развивая навыки:

многократного рассуждения,
аргументирования,
достижения совместных решений.

Для самообучения используется синтетическое взаимодействие агентов, генерируемое с помощью новой системы Matrix, что дало прирост качества на 29,4% на задачах математики и логики.

Эти инициативы демонстрируют курс Meta* на создание ИИ, способного воспринимать, понимать и взаимодействовать с миром почти на уровне человека. То есть, на тот самый долгожданный AGI.

*Meta признана в России экстремистской организацией и запрещена

Цукерберг строит курс на AGI: 5 проектов на пути к суперинтеллекту

Perception Encoder: новое «зрение» для ИИ

Perception Language Model (PLM): открытая модель для задач зрения и языка

Meta Locate 3D: восприятие пространства роботами*

Dynamic Byte Latent Transformer: байтовый подход в языковом моделировании

Collaborative Reasoner: развитие социального интеллекта ИИ