Активно будет развиваться в 2024 году и мультимодальный ИИ – модели ИИ, выполняющие пользовательские операции и обученные на данных из нескольких модальностей (текста, изображения, видео, 3D, речи, звука, таблиц, граф, кода). Как отмечают аналитики Stanford University, новые мультимодальные системы (GPT-4, Gemini, Claude 3) могут генерировать беглый текст на десятках языках, обрабатывать аудио и даже объяснять мемы.