Qwen2-Audio: Общайтесь с LLM помощью голоса.

Qwen2-Audio - аудио-языковых модель, которая способна принимать аудио и текст на вход и генерировать текст на выходе.

Qwen2-Audio: Общайтесь с LLM помощью голоса.

Предусмотрено два режима взаимодействия:

🟠голосовой чат: пользователи могут использовать голос для передачи инструкций модели без без ввода текста;

🟠аудио-анализ: пользователи могут предоставлять аудиоинформацию (включая речь, звук, музыку) и текстовые инструкции для анализа.

Qwen2-Audio: Общайтесь с LLM помощью голоса.

Обе опубликованные модели поддерживают 8 языков и диалектов: китайский, английский, кантонский, французский, итальянский, испанский, немецкий и японский:

Инференс на transformers в cli возможен в нескольких режимах:

🟠простой инференс модели Qwen2-Audio;

🟠пакетный инференс (например, несколько текстовых запросов к аудиофайлу);

🟠инференс анализа аудио (в этом режиме доступны и текстовые и аудио-инструкции);

🟠инференс голосового чата.

▶Локальный запуск с GradioUI:

Ensure you have latest Hugging face transformers

pip install git+https://github.com/huggingface/transformers

to build a web UI demoinstall the following packages

pip install -r requirements_web_demo.txt

run Gradio web UI

python demo/web_demo_audio.py

📌Лицензирование : Apache 2.0

Demo

Github [ Stars: 618 | Issues: 7 | Forks: 17]

@ai_machinelearning_big_data

Начать дискуссию