Kyutai выкатили новый проект (https://github.com/kyutai-labs/delayed-streams-modeling/) по распознаванию и генерации речи - Delayed Streams Modeling. Это про реал-тайм модели STT (речь в текст) и TTS (текст в речь), которые работают с минимальной задержкой.
Есть два STT-модели: одна на 1 миллиард параметров для английского и французского с задержкой 0.5 секунды, другая на 2.6 миллиарда только для английского с задержкой 2.5 секунды.
Обе могут обрабатывать аудио по кусочкам, выдавать тайм-коды слов и даже определять, когда человек говорит.
TTS генерит голос за 220 мс, клонирует голоса по 10 секундам записи и справляется с длинными текстами без косяков. Всё это доступно на GitHub, код частично под MIT и Apache...
Поддержки русского языка в моделях Kyutai STT и TTS пока нет. Сейчас они работают только с английским и французским. Например, модель stt-1b-en_fr (1 миллиард параметров) обрабатывает оба этих языка, а stt-2.6b-en (2.6 миллиарда) - только английский.
На сайте Kyutai пишут, что они думают над добавлением других языков...
Подписывайтесь на Telegram Русский ИТ бизнес 👨.