Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе. Предусмотрено два режима взаимодействия:🟠голосовой чат: пользователи могут использовать голос для передачи инструкций модели без без ввода текста; 🟠аудио-анализ: пользователи могут предоставлять аудиоинформацию (включая речь, звук, музыку) и текстовые инструкции для анализа.Обе опубликованные модели поддерживают 8 языков и диалектов: китайский, английский, кантонский, французский, итальянский, испанский, немецкий и японский:🟢Qwen2-Audio-7B 🟢Qwen2-Audio-7B-Instruct Инференс на transformers в cli возможен в нескольких режимах:🟠простой инференс модели Qwen2-Audio;🟠пакетный инференс (например, несколько текстовых запросов к аудиофайлу);🟠инференс анализа аудио (в этом режиме доступны и текстовые и аудио-инструкции);🟠инференс голосового чата.▶Локальный запуск с GradioUI:Ensure you have latest Hugging face transformerspip install git+https://github.com/huggingface/transformersto build a web UI demoinstall the following packagespip install -r requirements_web_demo.txtrun Gradio web UIpython demo/web_demo_audio.py📌Лицензирование : Apache 2.0▪Страница проекта▪Коллекция моделей на HF▪Arxiv▪Сообщество в Discord▪Demo▪Github [ Stars: 618 | Issues: 7 | Forks: 17]@ai_machinelearning_big_data#AI #LLM #ML #Qwen2