Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

Whisper — бесплатная система распознавания речи от OpenAI. Проблема в том, что у нее нет веб-версии как у ChatGPT. Придется устанавливать вручную, читать гайды, написанные разработчиками для разработчиков, писать какой-то код и так далее. На самом деле попробовать нейросеть можно прямо из браузера. Рассказываем, как это сделать.

<i>изображение сгенерировано Midjourney</i>
изображение сгенерировано Midjourney

Кому пригодится

Редакторам, спикерам и вообще всем, кому нужно расшифровывать аудио. Причем способы применения могут быть совершенно разные:

  • Провели рабочий созвон в Zoom или Google Meet — получили текст, который поможет погрузиться в контекст, сделать фоллоу-ап и не упустить детали.
  • Провели интервью — сразу получили готовый текстовый драфт.
  • Выступили с докладом на конференции — оформили в виде статьи минимальными усилиями.
  • Записали лекцию или презентацию проекта — получили готовую текстовую версию.
  • Или сделали субтитры и так далее.

Система обучена на 680 000 часах речевых данных из сети и распознает 99 языков, включая русский.

Как использовать

Есть три основных способа:

1. Хардкорный, но лучший (локальная установка). Пойти на GitHub, покопаться в исходниках, прочитать гайды и поставить Whisper локально на компьютер (подойдут и Mac, и PC).

  • Плюсы: работает оффлайн и высокая скорость работы, особенно на хорошем железе.
  • Минусы: не каждый захочет разбираться.

2. Простой, но медленный (в облаке). Прямо в браузере, а настройка займет буквально пять минут. Для этого понадобится Google Colab (что-то типа Google Docs, только для написания кода на Python) и несколько простых команд.

  • Плюсы: не надо париться с установкой, можно воспользоваться на любом устройстве. Хороший способ, чтобы познакомиться с Whisper.
  • Минусы: медленно, а при каждом перезапуске придется заново скачивать модель (до 3 ГБ). Кроме того, бесплатные вычислительные ресурсы сервиса ограничены, а все данные через 12 часов удаляются — ограничения можно снять, оформив платную подписку.

3. Удобный, но платный (приложение). Нативное приложение для Mac, но бесплатная версия MacWhisper поддерживает только самые простые модели распознавания.

  • Плюсы: установил и пользуешься.
  • Минусы: для хорошего результата придется выложить 10 евро. Но даже платная версия не поддерживает самую продвинутую модель распознавания large-v2.

Первый способ оставим на следующий раз (там свои нюансы) и расскажем про второй, чтобы каждый мог протестировать нейросеть и понять, нужна она ему или нет.

Whisper в браузере

Способ должен работать на любом устройстве, даже на смартфонах, но это не точно. Точно — работает на десктопных браузерах.

1. Создаем новый файл Google Colab. Просто нажмите на ссылку.

2. Указываем, чтобы компьютер использовал GPU (работает и без этого, ну лучше указать).

Меню → Среда выполнения → Сменить среду выполнения

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

В появившемся окне в качестве аппаратного ускорителя выбираем GPU и нажимаем «Сохранить»:

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

3. Устанавливаем Whisper.

Для этого просто вставляем код ниже в пустое поле и запускаем его (кнопка Play рядом слева от ячейки или комбинация Ctrl + Enter). Начнется установка, займет пару минут.

!pip install git+https://github.com/openai/whisper.git !sudo apt update && sudo apt install ffmpeg
Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

4. Загружаем файл, который нужно перевести в текст.

Точно поддерживаются видео .mp4 и аудио .mp3, .wav, .m4a. Проверено.

В левой колонке нажимаем папку и загружаем файл любым методом. Можно просто перетащить в окно браузера.

Мы пробовали и обычную запись, которая была сделана на диктофон. Никакой обработки, сырой исходник. При этом если запись совсем плохая, то можно попробовать использовать нейросеть от Adobe для улучшения качества звука. Работает тоже очень недурно.

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

5. Запускаем расшифровку.

Для примера я взял классику.

Вбиваем такую строку, где пишем название загруженного файла.

!whisper "What about money.mp3"

И нажимаем Play. Whisper начнет расшифровку, после чего выгрузит текстовые файлы туда же, куда вы загрузили исходник. Их можно потом скачать (таймингов как на скриншоте не будет) в форматах: .json, .srt, .tsv, .txt и .vtt.

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

Все, теперь можно скачивать исходники. Но если качество текста не устроило, его можно улучшить.

Модели и качество расшифровки

У Whisper есть несколько моделей распознавания, чем она больше, тем круче результат и дольше время выполнения.

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

Самая продвинутая на данный момент модель large-v2 обучена на том же датасете, что и large — но не один раз, а 2,5, что улучшает итоговый результат.

Пример 1. По умолчанию Google Colab будет использовать small. Пример выше был сделан именно на ней. Общий смысл будет понятен, но нюансы могут ускользнуть:

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

Например, отчество Михал Палыча сервис не распознал. Но как результат за 1 минуту очень даже неплохой.

Чтобы использовать более глубокую модель, нужно в конце команды дописать дополнительный параметр ---model и название модели через пробел. Выглядеть будет так:

!whisper "What about money.mp3" --model large-v2

Тот же файл на модели large-v2 был готов за 2,5 минуты. Результат уже заметно лучше, а мелкие недочеты ушли.

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

Пример 2. Система может распознавать английские слова и термины в русской речи, хотя не всегда корректно и сильно зависит от выбранной модели расшифровки. Проверим.

Я взял еще одну легенду, здесь английский вперемешку с русским. Результат small:

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

За минуту и почти идеально. Whisper правильно распознал большинство английских слов и разбил текст на много мелких предложений. А вот как за 3 минуты справилась модель large-v2:

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

Разница есть, но нельзя сказать, что в лучшую сторону. Здесь предложения длиннее, больше запятых, а английских слов почему-то убавилось.

В итоге получается, что обе модели справляются вполне неплохо, но многое зависит от исходного аудиофайла. Для большинства случаев качеством можно пренебречь в пользу высокой скорости и использовать модель small.

Пример 3. И последний тест — видео с полиглотом, говорящим на 12 языках.

На модели small Whisper распознал английскую и испанскую речь и транскрибировал их в текст. Другие языки он тоже понял, но сразу перевел на английский (потому определил английский как основной язык исходника). Вот как это выглядит:

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

На large-v2 результаты еще лучше. Система транскрибировала не только английский и испанский, но и все остальные языки.

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

У Whisper есть еще некоторые параметры, о них можно узнать по команде:

!whisper -h

Пробуйте. Через браузер как минимум можно просто поиграться. Но на модели large-v2 долгие аудио расшифровывать лучше не стоит, вполне может крашнуться браузер.

Лучше все-таки установить на компьютер и сравнить скорости. Как скомпануем, все расскажем.

106106
54 комментария

Скачиваем MacWhisper. Нажимаем в Finder показать содержимое, в папке Resources 2 файла: ggml-model-whisper-base.bin и ggml-model-whisper-tiny.bin. base - это базовая модель, tiny - режим fast. Заменяем любую из них на модель ggml-large.bin, загуглив "huggingface ggerganov whisper.cpp", обязательно переименовав её в ggml-model-whisper-base.bin или ggml-model-whisper-tiny.bin. Запускаем MacWhisper. Если заменили модель tiny не забудьте переключиться на режим fast.

11
Ответить

В новой версии библиотеки переехали сюда:
/Users/Имя пользователя/Library/Application Support/MacWhisper/models

1
Ответить

Оп, спасибо! Попробуем)

Ответить

Благодарю!

Ответить

Огромное спасибо!

Ответить

Если вы используете Windows, то Whisper можно найти в прекрасном редакторе для субтитров - Subtitle Edit, в меню Видео.

11
Ответить

Неясно только что использует редактор - CPU и GPU при расшифровке. в Google Colab есть возможность выбора.

Ответить