Kyutai выкатили новый проект (https://github.com/kyutai-labs/delayed-streams-modeling/) по распознаванию и генерации речи - Delayed Streams Modeling. Это про реал-тайм модели STT (речь в текст) и TTS (текст в речь), которые работают с минимальной задержкой.

Есть два STT-модели: одна на 1 миллиард параметров для английского и французского с задержкой 0.5 секунды, другая на 2.6 миллиарда только для английского с задержкой 2.5 секунды.

Обе могут обрабатывать аудио по кусочкам, выдавать тайм-коды слов и даже определять, когда человек говорит.

TTS генерит голос за 220 мс, клонирует голоса по 10 секундам записи и справляется с длинными текстами без косяков. Всё это доступно на GitHub, код частично под MIT и Apache...

Поддержки русского языка в моделях Kyutai STT и TTS пока нет. Сейчас они работают только с английским и французским. Например, модель stt-1b-en_fr (1 миллиард параметров) обрабатывает оба этих языка, а stt-2.6b-en (2.6 миллиарда) - только английский.

На сайте Kyutai пишут, что они думают над добавлением других языков...

Подписывайтесь на Telegram Русский ИТ бизнес 👨.

Начать дискуссию