Подборка новых моделей
✦ Hermes 4 от Nous Research: семейство открытых моделей
По производительности сопоставима с конкурентами, но с меньшей цензурой. Модель отвечает на провокационные вопросы чаще, чем Claude и ChatGPT. Уровень цензуры настраивается пользователем. Есть выбор режима: быстрый и глубокое рассуждение
✦ OmniHuman-1.5 от ByteDance: новая модель для создания аватаров
Модель превращает одно изображение и аудио в видео-аватар. Генерирует связные движения длительностью более одной минуты. Используется мультимодальный LLM-планировщик для определения эмоций и действий. Система поддерживает взаимодействие между несколькими персонажами
Код пока не выложили =(
✦ TTS VibeVoice от Microsoft: открытая модель для создания аудиоконтента
Система синтеза речи на английском и китайском языках. Создает аудиоконтент до 90 минут с участием до 4 спикеров. Включает непрерывные токенизаторы речи на 7.5 Гц и LLM для понимания контекста
Демо - Hugging Face - GitHub - тех. отчёт
✦ Hunyuan-MT от Tencent: открытые модели перевода
Поддержка 33 языков. Модели заняли 1-е место в 30 из 31 категорий на WMT25. Hunyuan-MT-7B показал лучшие результаты среди моделей своего размера
Подписывайтесь на Telegram EFEMERA: AI news.