Гуглим Purfview - whisper-standalone-win
Полностью бесплатно. На современной карте nvidia (cuda) работает довольно быстро. Версия xxl - ещё и с помощью другой нейросети голос от фона отделяет перед распознаванием. Рекомендую использовать модель large-v2.
И кстати по общему мнение модель V2 качественнее чем V3.
Нужно использовать модель Large V2, а не V3.
Скачайте версию 2.2 там точно есть.
Там есть кнопка. Откройте Manage Models, там значок открыть папку с моделями (для этого скачайте доступные модели). А потом просто подмените модели. Я советую использовать модели medium. Скачайте в программе доступные в бесплатном режиме модели Small (обычная и English Only) и подмените их моделями Medium, переименовав модели Medium в ggml-model-whisper-small.bin и ggml-model-whisper-small.en.bin соотвественно. Модели Medium гуглятся "huggingface ggerganov whisper.cpp".
Всех прав в Android TV нет, но конкретно права на доступ к микрофону в Android TV есть. Живут в Настройки - Приложения - Разрешения Приложений. Более того по умолчанию доступ к микрофону у всех приложений отключен - при первом вызове вылезает запрос на получение прав.
В новой версии библиотеки переехали сюда:
/Users/Имя пользователя/Library/Application Support/MacWhisper/models
Вот еще нашел вот такую программу:
https://github.com/Const-me/Whisper
Если вы используете Windows, то Whisper можно найти в прекрасном редакторе для субтитров - Subtitle Edit, в меню Видео.
Скачиваем MacWhisper. Нажимаем в Finder показать содержимое, в папке Resources 2 файла: ggml-model-whisper-base.bin и ggml-model-whisper-tiny.bin. base - это базовая модель, tiny - режим fast. Заменяем любую из них на модель ggml-large.bin, загуглив "huggingface ggerganov whisper.cpp", обязательно переименовав её в ggml-model-whisper-base.bin или ggml-model-whisper-tiny.bin. Запускаем MacWhisper. Если заменили модель tiny не забудьте переключиться на режим fast.
Если нужно gui - ставьте SubtitleEdit, подгружаете в него аудио или видео и выбираете речь в текст - Whisper.