Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

Whisper — бесплатная система распознавания речи от OpenAI. Проблема в том, что у нее нет веб-версии как у ChatGPT. Придется устанавливать вручную, читать гайды, написанные разработчиками для разработчиков, писать какой-то код и так далее. На самом деле попробовать нейросеть можно прямо из браузера. Рассказываем, как это сделать.

<i>изображение сгенерировано Midjourney</i>

Редакторам, спикерам и вообще всем, кому нужно расшифровывать аудио. Причем способы применения могут быть совершенно разные:

Провели рабочий созвон в Zoom или Google Meet — получили текст, который поможет погрузиться в контекст, сделать фоллоу-ап и не упустить детали.
Провели интервью — сразу получили готовый текстовый драфт.
Выступили с докладом на конференции — оформили в виде статьи минимальными усилиями.
Записали лекцию или презентацию проекта — получили готовую текстовую версию.
Или сделали субтитры и так далее.

Система обучена на 680 000 часах речевых данных из сети и распознает 99 языков, включая русский.

Есть три основных способа:

1. Хардкорный, но лучший (локальная установка). Пойти на GitHub, покопаться в исходниках, прочитать гайды и поставить Whisper локально на компьютер (подойдут и Mac, и PC).

Плюсы: работает оффлайн и высокая скорость работы, особенно на хорошем железе.
Минусы: не каждый захочет разбираться.

2. Простой, но медленный (в облаке). Прямо в браузере, а настройка займет буквально пять минут. Для этого понадобится Google Colab (что-то типа Google Docs, только для написания кода на Python) и несколько простых команд.

Плюсы: не надо париться с установкой, можно воспользоваться на любом устройстве. Хороший способ, чтобы познакомиться с Whisper.
Минусы: медленно, а при каждом перезапуске придется заново скачивать модель (до 3 ГБ). Кроме того, бесплатные вычислительные ресурсы сервиса ограничены, а все данные через 12 часов удаляются — ограничения можно снять, оформив платную подписку.

3. Удобный, но платный (приложение). Нативное приложение для Mac, но бесплатная версия MacWhisper поддерживает только самые простые модели распознавания.

Плюсы: установил и пользуешься.
Минусы: для хорошего результата придется выложить 10 евро. Но даже платная версия не поддерживает самую продвинутую модель распознавания large-v2.

Первый способ оставим на следующий раз (там свои нюансы) и расскажем про второй, чтобы каждый мог протестировать нейросеть и понять, нужна она ему или нет.

Способ должен работать на любом устройстве, даже на смартфонах, но это не точно. Точно — работает на десктопных браузерах.

1. Создаем новый файл Google Colab. Просто нажмите на ссылку.

2. Указываем, чтобы компьютер использовал GPU (работает и без этого, ну лучше указать).

Меню → Среда выполнения → Сменить среду выполнения

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

В появившемся окне в качестве аппаратного ускорителя выбираем GPU и нажимаем «Сохранить»:

3. Устанавливаем Whisper.

Для этого просто вставляем код ниже в пустое поле и запускаем его (кнопка Play рядом слева от ячейки или комбинация Ctrl + Enter). Начнется установка, займет пару минут.

!pip install git+https://github.com/openai/whisper.git !sudo apt update && sudo apt install ffmpeg

4. Загружаем файл, который нужно перевести в текст.

Точно поддерживаются видео .mp4 и аудио .mp3, .wav, .m4a. Проверено.

В левой колонке нажимаем папку и загружаем файл любым методом. Можно просто перетащить в окно браузера.

Мы пробовали и обычную запись, которая была сделана на диктофон. Никакой обработки, сырой исходник. При этом если запись совсем плохая, то можно попробовать использовать нейросеть от Adobe для улучшения качества звука. Работает тоже очень недурно.

5. Запускаем расшифровку.

Для примера я взял классику.

Вбиваем такую строку, где пишем название загруженного файла.

!whisper "What about money.mp3"

И нажимаем Play. Whisper начнет расшифровку, после чего выгрузит текстовые файлы туда же, куда вы загрузили исходник. Их можно потом скачать (таймингов как на скриншоте не будет) в форматах: .json, .srt, .tsv, .txt и .vtt.

Все, теперь можно скачивать исходники. Но если качество текста не устроило, его можно улучшить.

У Whisper есть несколько моделей распознавания, чем она больше, тем круче результат и дольше время выполнения.

Самая продвинутая на данный момент модель large-v2 обучена на том же датасете, что и large — но не один раз, а 2,5, что улучшает итоговый результат.

Пример 1. По умолчанию Google Colab будет использовать small. Пример выше был сделан именно на ней. Общий смысл будет понятен, но нюансы могут ускользнуть:

Например, отчество Михал Палыча сервис не распознал. Но как результат за 1 минуту очень даже неплохой.

Чтобы использовать более глубокую модель, нужно в конце команды дописать дополнительный параметр ---model и название модели через пробел. Выглядеть будет так:

!whisper "What about money.mp3" --model large-v2

Тот же файл на модели large-v2 был готов за 2,5 минуты. Результат уже заметно лучше, а мелкие недочеты ушли.

Пример 2. Система может распознавать английские слова и термины в русской речи, хотя не всегда корректно и сильно зависит от выбранной модели расшифровки. Проверим.

Я взял еще одну легенду, здесь английский вперемешку с русским. Результат small:

За минуту и почти идеально. Whisper правильно распознал большинство английских слов и разбил текст на много мелких предложений. А вот как за 3 минуты справилась модель large-v2:

Разница есть, но нельзя сказать, что в лучшую сторону. Здесь предложения длиннее, больше запятых, а английских слов почему-то убавилось.

В итоге получается, что обе модели справляются вполне неплохо, но многое зависит от исходного аудиофайла. Для большинства случаев качеством можно пренебречь в пользу высокой скорости и использовать модель small.

Пример 3. И последний тест — видео с полиглотом, говорящим на 12 языках.

На модели small Whisper распознал английскую и испанскую речь и транскрибировал их в текст. Другие языки он тоже понял, но сразу перевел на английский (потому определил английский как основной язык исходника). Вот как это выглядит:

На large-v2 результаты еще лучше. Система транскрибировала не только английский и испанский, но и все остальные языки.

У Whisper есть еще некоторые параметры, о них можно узнать по команде:

!whisper -h

Пробуйте. Через браузер как минимум можно просто поиграться. Но на модели large-v2 долгие аудио расшифровывать лучше не стоит, вполне может крашнуться браузер.

Лучше все-таки установить на компьютер и сравнить скорости. Как скомпануем, все расскажем.

Расшифровываем аудио в текст на 99 языках: как использовать Whisper от создателей ChatGPT прямо в браузере

Кому пригодится

Как использовать

Whisper в браузере

Модели и качество расшифровки