Помните про мультимодальность? Настоящую, а не то, что показал Сбер 🤮Вот повод еще раз вспомнить: Meta AI (Facebook) показал мультимодальную модель, которая может работать одновременно с текстом, аудио, изображениями, картами глубины, картами температур + IMU сигналы (последнее нужно чтобы понимать не только что изображено, но и как изображено). GPT-4 сейчас способна обрабатывать одновременно только текст и изображения (да и то эта функция доступна для очень ограниченного круга бета-тестеров)Как это использоватьНапример, можно подобрать самую подходящее изображение под определенный звук. Или можно совместить изображение с аудио и получить другое изображение. Ну а вообще, это конечно же про то, как в ближайшем будущем от нейросетей можно будет получать не части (только текст или только изображения) а целое (фильм, игру или приложение). Прямо как в этом проекте (ничего пощупать пока нельзя) Почему это важноМы еще на один шаг приблизились к функциональности человеческого мозга, который может воспринимать и отрабатывать информацию с разных сенсоров. Это даже круче, чем использования GPT в качестве операционной системы, о чем я писал тут 👇Как попробоватьБлогКодДемо 👉 Подписывайся в ТГ, чтобы не пропускать важные новости об AI