Meta AI представила модель, которая в 3 раза превосходит GPT-4

Помните про мультимодальность? Настоящую, а не то, что показал Сбер 🤮

Вот повод еще раз вспомнить: Meta AI (Facebook) показал мультимодальную модель, которая может работать одновременно с текстом, аудио, изображениями, картами глубины, картами температур + IMU сигналы (последнее нужно чтобы понимать не только что изображено, но и как изображено). GPT-4 сейчас способна обрабатывать одновременно только текст и изображения (да и то эта функция доступна для очень ограниченного круга бета-тестеров)

Как это использовать

Например, можно подобрать самую подходящее изображение под определенный звук. Или можно совместить изображение с аудио и получить другое изображение.

Ну а вообще, это конечно же про то, как в ближайшем будущем от нейросетей можно будет получать не части (только текст или только изображения) а целое (фильм, игру или приложение).

Прямо как в этом проекте (ничего пощупать пока нельзя)

Почему это важно

Мы еще на один шаг приблизились к функциональности человеческого мозга, который может воспринимать и отрабатывать информацию с разных сенсоров.

Это даже круче, чем использования GPT в качестве операционной системы, о чем я писал тут 👇

Как попробовать

👉 Подписывайся в ТГ, чтобы не пропускать важные новости об AI

Начать дискуссию