Новые мультимодальные модели для телефонов от Apple и OpenBMB
✦ MobileCLIP2 от Apple: поколение моделей для анализа изображений и текста
Модель доступна в нескольких вариантах: S0, S2, B, S3, S4 с разным числом параметров и скоростью работы. Точность на ImageNet-1k для MobileCLIP2-S4 достигает 81,9% (сравнялась с SigLIP-SO400M/14, имея в 2 раза меньше параметров). На iPhone 12 Pro Max модель работает в 2,5 раза быстрее, чем DFN ViT-L/14. Обучена на улучшенном датасете DFN-5B и с использованием синтетических описаний изображений.
✦ MiniCPM-V 4.5 от OpenBMB: понимает изображения, видео и документы
Основана на Qwen3-8B и SigLIP2-400M с общим числом параметров 8.7B. Набирает 77.0 баллов в OpenCompass, опережая GPT-4o-latest и Gemini 2.0 Pro. Обрабатывает изображения до 1.8 млн пикселей с любым соотношением сторон. Лидирует в OCRBench, превосходя GPT-4o-latest с результатом 89. Поддерживает 30+ языков. Может использоваться на iPhone и iPad через оптимизированное iOS-приложение
Подписывайтесь на Telegram EFEMERA: AI news.