{"id":14276,"url":"\/distributions\/14276\/click?bit=1&hash=721b78297d313f451e61a17537482715c74771bae8c8ce438ed30c5ac3bb4196","title":"\u0418\u043d\u0432\u0435\u0441\u0442\u0438\u0440\u043e\u0432\u0430\u0442\u044c \u0432 \u043b\u044e\u0431\u043e\u0439 \u0442\u043e\u0432\u0430\u0440 \u0438\u043b\u0438 \u0443\u0441\u043b\u0443\u0433\u0443 \u0431\u0435\u0437 \u0431\u0438\u0440\u0436\u0438","buttonText":"","imageUuid":""}

Как расшифровать аудио и видео бесплатно

Устанавливаем Whisper на компьютер: без навыков программирования и танцев с бубнами

Whisper — это модель преобразования речи в текст от OpenAI, которую можно использовать для бесплатного транскрибирования аудио- и видеофайлов. Поддерживает 99 языков.

Навыки программирования не потребуются. Инструкция подойдет для пользователей ОС Windows (тестировал на Windows 10).

Немного теории. За качество расшифровки отвечает модель распознавания. У Whisper их всего пять: tiny, base, small, medium и large. Чем "больше" модель распознавания, тем качественнее будет расшифровка.

В этой таблице указаны требования к производительности вашего компьютера. Больше всего нас интересуют значения VRAM. Запомните их.

Чтобы узнать VRAM на вашем компьютере, выполните следующие действия:

1. Откройте рабочий стол.

2. Нажмите на любую пустую область рабочего стола правой кнопкой мыши.

3. Во всплывающем меню нажмите "Параметры экрана"

4. В разделе "Дисплей" (он откроется сразу) прокрутите вниз и нажмите "Дополнительные параметры дисплея"

5. Нажмите на кнопку "Свойства видеоадаптера для дисплея 1"

В новом окне появятся свойства видеокарты. Мы искали значение "Используется видеопамяти".

Теперь, понимая возможности компьютера, выбираем подходящую модель:

1. base (~1000MB VRAM): Скачать

2. small (~2000MB VRAM): Скачать

3. medium (~4000-5000MB VRAM): Скачать

4. large (~10000MB VRAM): Скачать

Whisper Desktop

Выбранную модель нам нужно будет загрузить в программу, которая называется Whisper Dekstop: Скачать

Распаковываем ZIP-архив и открываем программу через WhisperDekstop.exe

Откройте программу, нажмите на "..." и выберите скачанную ранее модель распознавания. Нажмите OK, и программа подгрузит нашу модель. На это потребуется некоторое время.

Выберите язык (Language) и файл, который хотите расшифровать (Transcribe File).

Поддерживаемые форматы: M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM.

Далее выбираем текстовый документ, куда будет сохраняться расшифровка (Output Format).

Подсказка:

1. Text file - обычная расшифровка
2. Text with timestamps - расшифровка с тайм-кодами [00:00:00]

Теперь нам нужно выбрать или создать новый текстовый документ в формате .txt. Нажмите на нижнюю кнопку "...". В появившемся окне нажмите на любую пустую область, выберите "Создать" и "Текстовый документ". Задайте имя файла и нажмите "Открыть"

Когда всё готово, нажимаем Transcribe и ждем окончания расшифровки.

Если вы сделали всё правильно, у вас начнётся процесс расшифровки файла.

На расшифровку файла длительностью 100 минут с использованием модели medium у меня ушло 28 минут. Чем тяжелее модель, тем больше времени потребуется на расшифровку.

Дополнительно. Расшифровка с микрофона

Можно говорить в микрофон и параллельно превращать голос в текст. В меню с выбором файла для расшифровки нажмите на кнопку Audio Capture. Выберите язык (Language) и микрофон (Capture device).

Если микрофон не подключен, список будет пустым.

Нажмите на кнопку Capture и начинайте говорить. По окончании нажимаем Stop и получаем готовую расшифровку

Whisper довольно неплохо справляется с расшифровкой одного голоса, но не умеет делить спикеров по ролям. Иногда в тексте могут быть ошибки, потому что нейросеть не вникает в контекст, как это сделал бы человек. Со сложной записью, шумами на улице и музыкой на фоне нейросеть справится так себе.

Эта инструкция размещена в моем боте @NeuroNavigator_bot. В нём я сохраняю обучающие материалы по работе с нейросетями, промты для генерации текстов и изображений, обзоры на полезные сервисы и многое другое. Буду рад обратной связи.

На этом всё. Если статья помогла, ставьте лайк, класс, сердечко или что угодно еще.

0
4 комментария
Алексей Камов

А для macOS?

Ответить
Развернуть ветку
Борис Иванов
Автор

Мака нет, не могу помочь

Ответить
Развернуть ветку
Alexander Tkachenko

Актуальней и проще онлайн формат.

Но за статью-инструкцию спасибо!

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
1 комментарий
Раскрывать всегда