Hugging Face представили Speech-to-Speech модель

Команда Hugging Face представила новую разработку — Speech-to-Speech модель, которая, по их словам, является шагом на пути к созданию опенсорсной и модульной версии GPT-4. В отличие от мультимодальных решений от OpenAI, эта модель построена на основе комбинации отдельных компонентов, что дает пользователям больше гибкости.

Проект собрал уже более 2700 звезд на GitHub и включает следующие ключевые элементы:

Voice Activity Detection (VAD): Модель использует Silero VAD v5 для обнаружения активности голоса и управления процессом обработки.

Speech to Text (STT): Для преобразования речи в текст применяется Whisper, включая его оптимизированные версии, такие как Distil-Whisper.

Language Model (LM): Полностью модульная часть, позволяющая использовать любую доступную на Hugging Face Hub языковую модель.

Text to Speech (TTS): Для преобразования текста обратно в речь используется Parler-TTS, с возможностью применения различных предварительно обученных и многоязычных контрольных точек.

Этот проект особенно интересен благодаря своей модульности. Каждый компонент реализован как отдельный класс, что позволяет пользователям легко адаптировать модель под свои нужды. Интересно и то, что эта модель поддерживает динамическое переключение языков с задержкой всего в 100 миллисекунд, что делает её подходящей для многоязычных приложений.

Для работы с моделью можно использовать как локальный режим, так и серверную конфигурацию. Поддерживается работа с Docker, а также предусмотрены оптимальные настройки для пользователей Mac. Код открыт для модификации, и каждый может экспериментировать с различными конфигурациями, чтобы найти наиболее подходящее решение для своих задач.

Все детали и инструкции по установке доступны в репозитории на GitHub.

11
Начать дискуссию