Как расшифровать аудио и видео бесплатно

Устанавливаем Whisper на компьютер: без навыков программирования и танцев с бубнами

Whisper — это модель преобразования речи в текст от OpenAI, которую можно использовать для бесплатного транскрибирования аудио- и видеофайлов. Поддерживает 99 языков.

Навыки программирования не потребуются. Инструкция подойдет для пользователей ОС Windows (тестировал на Windows 10).

Немного теории. За качество расшифровки отвечает модель распознавания. У Whisper их всего пять: tiny, base, small, medium и large. Чем "больше" модель распознавания, тем качественнее будет расшифровка.

В этой таблице указаны требования к производительности вашего компьютера. Больше всего нас интересуют значения VRAM. Запомните их.

Чтобы узнать VRAM на вашем компьютере, выполните следующие действия:

1. Откройте рабочий стол.

2. Нажмите на любую пустую область рабочего стола правой кнопкой мыши.

3. Во всплывающем меню нажмите "Параметры экрана"

4. В разделе "Дисплей" (он откроется сразу) прокрутите вниз и нажмите "Дополнительные параметры дисплея"

5. Нажмите на кнопку "Свойства видеоадаптера для дисплея 1"

В новом окне появятся свойства видеокарты. Мы искали значение "Используется видеопамяти".

Теперь, понимая возможности компьютера, выбираем подходящую модель:

1. base (~1000MB VRAM): Скачать

2. small (~2000MB VRAM): Скачать

3. medium (~4000-5000MB VRAM): Скачать

4. large (~10000MB VRAM): Скачать

Выбранную модель нам нужно будет загрузить в программу, которая называется Whisper Dekstop: Скачать

Распаковываем ZIP-архив и открываем программу через WhisperDekstop.exe

Откройте программу, нажмите на "..." и выберите скачанную ранее модель распознавания. Нажмите OK, и программа подгрузит нашу модель. На это потребуется некоторое время.

Выберите язык (Language) и файл, который хотите расшифровать (Transcribe File).

Поддерживаемые форматы: M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM.

Далее выбираем текстовый документ, куда будет сохраняться расшифровка (Output Format).

Подсказка:

1. Text file - обычная расшифровка
2. Text with timestamps - расшифровка с тайм-кодами [00:00:00]

Теперь нам нужно выбрать или создать новый текстовый документ в формате .txt. Нажмите на нижнюю кнопку "...". В появившемся окне нажмите на любую пустую область, выберите "Создать" и "Текстовый документ". Задайте имя файла и нажмите "Открыть"

Когда всё готово, нажимаем Transcribe и ждем окончания расшифровки.

Если вы сделали всё правильно, у вас начнётся процесс расшифровки файла.

На расшифровку файла длительностью 100 минут с использованием модели medium у меня ушло 28 минут. Чем тяжелее модель, тем больше времени потребуется на расшифровку.

Можно говорить в микрофон и параллельно превращать голос в текст. В меню с выбором файла для расшифровки нажмите на кнопку Audio Capture. Выберите язык (Language) и микрофон (Capture device).

Если микрофон не подключен, список будет пустым.

Нажмите на кнопку Capture и начинайте говорить. По окончании нажимаем Stop и получаем готовую расшифровку

Whisper довольно неплохо справляется с расшифровкой одного голоса, но не умеет делить спикеров по ролям. Иногда в тексте могут быть ошибки, потому что нейросеть не вникает в контекст, как это сделал бы человек. Со сложной записью, шумами на улице и музыкой на фоне нейросеть справится так себе.

Эта инструкция размещена в моем боте @NeuroNavigator_bot. В нём я сохраняю обучающие материалы по работе с нейросетями, промты для генерации текстов и изображений, обзоры на полезные сервисы и многое другое. Буду рад обратной связи.

На этом всё. Если статья помогла, ставьте лайк, класс, сердечко или что угодно еще.