Мультимодальный ИИ: видит, слышит, говорит

Прошли те времена, когда LLM модели дразнили «жалкими предсказателями следующего токена». Их возможности расширяются с каждым днем:

1. Понимание картинок — ChatGPT анализирует графики, генерирует код по скриншоту, объясняет мемы. Кстати, опенсорс тут обогнал OpenAI: открытая модель LLaVa научилась этому раньше

2. Распознавание и синтез голоса — модель Whisper приближается к человеческому уровню расшифровки речи. А опенсорсная HierSpeech позволяет создать «AI-диктора», неотличимого на слух от человека

3. Целостное представление видео — новая модель Gemini Ultra от Google умеет «смотреть» видео и отвечать по нему на вопросы. Интересно, что одним из главных контрибьюторов был кофаундер Гугла Сергей Брин

Это и есть мультимодальные возможности ИИ. Наш мозг умеет одновременно обрабатывать визуальную, текстовую, тактильную и аудио-информацию — но всё это можно представить набором чисел и скормить компьютеру. ИИ-модели научили имитировать этот процесс, переводя любые типы данных в единое векторное пространство.

Благодаря мультимодальности, совсем скоро нас ждут настоящие сверхспособности ИИ:

а. Автономный компьютер: модель просматривает экран и сама решает, куда нужно кликнуть и что ввести для выполнения заданного действия. Adept AI подняли под это дело уже более $400М инвестиций

б. Самообучающиеся роботы: Nvidia тут навели шуму, когда представили ИИ-систему обучения Eureka. Инструкции от нейронки в 80% случаев превосходят программы, разработанные экспертами в робототехнике

в. Объединение с VR и нейроинтерфейсами: подобный девайс на днях презентовали OpenBCI. Можно подключить к ИИ-модели данные о сердце, мышцах, глазах и мозге человека — так компьютер становится естественным продолжением тела пользователя

г. Общие модели мира: следующий шаг в эволюции ИИ, над которым работают Runway. Моделирование нашего мира и предсказание будущего — а там уже и до AGI недалеко?

🤘 Чтобы следить за выходом новых материалов, подписывайтесь на наш аккаунт. Делитесь с друзьями и до скорого!