🔸 Модель стала омнимодальной (“O” в названии значит Omni). То есть может одновременно работать и с текстом, и с видео, и со звуками. Не 3-4 отдельных модели специализирующихся на своей функции как ранее (голос->текст, видео->текст, вопрос->ответ, текст-голос).