Цукерберг строит курс на AGI: 5 проектов на пути к суперинтеллекту
Meta* FAIR анонсировала пять проектов, приближающих создание продвинутого машинного интеллекта (AMI), с акцентом на восприятие ИИ, языковое моделирование, робототехнику и коллаборативных агентов.
Цель Meta* — создать машины, способные воспринимать окружающий мир и принимать решения с человеческой скоростью и точностью.
Perception Encoder: новое «зрение» для ИИ
Perception Encoder — крупномасштабный кодировщик зрения для работы с изображениями и видео. Он объединяет восприятие изображения и текста, устойчив к сложным условиям и способен замечать мельчайшие детали.
Meta* заявляет, что Perception Encoder превосходит все существующие открытые и коммерческие модели в задачах zero-shot классификации и поиска, а также усиливает языковые модели, помогая им лучше решать задачи пространственного понимания.
Perception Language Model (PLM): открытая модель для задач зрения и языка
PLM — открытая модель для сложных задач визуального распознавания, обученная без использования закрытых моделей.
В рамках проекта создан крупнейший датасет для видеоаналитики (2,5 млн примеров) и новый бенчмарк PLM-VideoBench, сфокусированный на тонком понимании действий и пространственно-временных связей.
Meta Locate 3D: восприятие пространства роботами*
Meta* Locate 3D позволяет роботам находить объекты в 3D-пространстве по свободным языковым запросам.
Система напрямую обрабатывает облака точек от RGB-D сенсоров и включает в себя:
- преобразование 2D-признаков в 3D,
- кодировщик 3D-JEPA,
- декодер Locate 3D для выделения объектов.
Dynamic Byte Latent Transformer: байтовый подход в языковом моделировании
Meta* представила Dynamic Byte Latent Transformer на 8 млрд параметров, работающий с текстом на уровне байтов.
Такой подход повышает устойчивость моделей к ошибкам и новым словам: отмечено улучшение производительности до +55 баллов на специализированных тестах (например, CUTE).
Collaborative Reasoner: развитие социального интеллекта ИИ
Collaborative Reasoner помогает ИИ-агентам эффективно взаимодействовать между собой и с людьми, развивая навыки:
- многократного рассуждения,
- аргументирования,
- достижения совместных решений.
Для самообучения используется синтетическое взаимодействие агентов, генерируемое с помощью новой системы Matrix, что дало прирост качества на 29,4% на задачах математики и логики.
Эти инициативы демонстрируют курс Meta* на создание ИИ, способного воспринимать, понимать и взаимодействовать с миром почти на уровне человека. То есть, на тот самый долгожданный AGI.
*Meta признана в России экстремистской организацией и запрещена