Модели, работающие с разнообразными типами данных, от текста до видео, набирают всё большую популярность.Рассмотрим четыре передовые модели, которые стоят на в топе по объёму инноваций в своих областях.GeminiМодель от Google — мультимодальная модель, обрабатывающая текст, звук, изображения и видео. Используется DeepMind для создания датасетов и других задач, недавно обновлена до версии Gemini 1.5 Pro с поддержкой аудио.GPT-4VМодель от OpenAI — хороша в области анализа изображений и видео, используемое для обучения роботов и медицинской диагностики, благодаря своей способности писать программы на основе анализа видео.MM1Модель от Apple — способна решать задачи, связанные с изображениями и текстом, например, подсчет объектов или выполнение математических операций, используя методы рассуждения.OmniFusionМодель от AIRI, Sber AI и Sber Devices — новейшая российская разработка, способная вести диалоги, основываясь на анализе изображений, с выдающимися результатами на бенчмарках.Эти модели демонстрируют, как разнообразие подходов и совместная работа данных могут расширить возможности искусственного интеллекта в различных приложениях.Ещё больше важных и интересных новостей про AI на других ресурсах:🔵 Наш Telegram🔴 Наш YouTube🟣 Наш VC