{"id":14292,"url":"\/distributions\/14292\/click?bit=1&hash=23aed192f809013ec1c0769a11eb00fbed4dd7038bbe5f8e3db447db2e792dcd","title":"\u0421 \u043d\u0430\u0447\u0430\u043b\u0430 \u0433\u043e\u0434\u0430 \u043a\u0430\u0440\u0442\u043e\u0439 \u00ab\u0425\u0430\u043b\u0432\u0430\u00bb \u043e\u043f\u043b\u0430\u0442\u0438\u043b\u0438 40 \u043c\u043b\u043d \u043f\u043e\u043a\u0443\u043f\u043e\u043a","buttonText":"","imageUuid":""}

Как расшифровать аудио и видео бесплатно

Устанавливаем Whisper на компьютер: без навыков программирования и танцев с бубнами

Whisper — это модель преобразования речи в текст от OpenAI, которую можно использовать для бесплатного транскрибирования аудио- и видеофайлов. Поддерживает 99 языков.

Навыки программирования не потребуются. Инструкция подойдет для пользователей ОС Windows (тестировал на Windows 10).

Немного теории. За качество расшифровки отвечает модель распознавания. У Whisper их всего пять: tiny, base, small, medium и large. Чем "больше" модель распознавания, тем качественнее будет расшифровка.

В этой таблице указаны требования к производительности вашего компьютера. Больше всего нас интересуют значения VRAM. Запомните их.

Чтобы узнать VRAM на вашем компьютере, выполните следующие действия:

1. Откройте рабочий стол.

2. Нажмите на любую пустую область рабочего стола правой кнопкой мыши.

3. Во всплывающем меню нажмите "Параметры экрана"

4. В разделе "Дисплей" (он откроется сразу) прокрутите вниз и нажмите "Дополнительные параметры дисплея"

5. Нажмите на кнопку "Свойства видеоадаптера для дисплея 1"

В новом окне появятся свойства видеокарты. Мы искали значение "Используется видеопамяти".

Теперь, понимая возможности компьютера, выбираем подходящую модель:

1. base (~1000MB VRAM): Скачать

2. small (~2000MB VRAM): Скачать

3. medium (~4000-5000MB VRAM): Скачать

4. large (~10000MB VRAM): Скачать

Whisper Desktop

Выбранную модель нам нужно будет загрузить в программу, которая называется Whisper Dekstop: Скачать

Распаковываем ZIP-архив и открываем программу через WhisperDekstop.exe

Откройте программу, нажмите на "..." и выберите скачанную ранее модель распознавания. Нажмите OK, и программа подгрузит нашу модель. На это потребуется некоторое время.

Выберите язык (Language) и файл, который хотите расшифровать (Transcribe File).

Поддерживаемые форматы: M4A, MP3, MP4, MPEG, MPGA, WAV и WEBM.

Далее выбираем текстовый документ, куда будет сохраняться расшифровка (Output Format).

Подсказка:

1. Text file - обычная расшифровка
2. Text with timestamps - расшифровка с тайм-кодами [00:00:00]

Теперь нам нужно выбрать или создать новый текстовый документ в формате .txt. Нажмите на нижнюю кнопку "...". В появившемся окне нажмите на любую пустую область, выберите "Создать" и "Текстовый документ". Задайте имя файла и нажмите "Открыть"

Когда всё готово, нажимаем Transcribe и ждем окончания расшифровки.

Если вы сделали всё правильно, у вас начнётся процесс расшифровки файла.

На расшифровку файла длительностью 100 минут с использованием модели medium у меня ушло 28 минут. Чем тяжелее модель, тем больше времени потребуется на расшифровку.

Дополнительно. Расшифровка с микрофона

Можно говорить в микрофон и параллельно превращать голос в текст. В меню с выбором файла для расшифровки нажмите на кнопку Audio Capture. Выберите язык (Language) и микрофон (Capture device).

Если микрофон не подключен, список будет пустым.

Нажмите на кнопку Capture и начинайте говорить. По окончании нажимаем Stop и получаем готовую расшифровку

Whisper довольно неплохо справляется с расшифровкой одного голоса, но не умеет делить спикеров по ролям. Иногда в тексте могут быть ошибки, потому что нейросеть не вникает в контекст, как это сделал бы человек. Со сложной записью, шумами на улице и музыкой на фоне нейросеть справится так себе.

Эта инструкция размещена в моем боте @NeuroNavigator_bot. В нём я сохраняю обучающие материалы по работе с нейросетями, промты для генерации текстов и изображений, обзоры на полезные сервисы и многое другое. Буду рад обратной связи.

На этом всё. Если статья помогла, ставьте лайк, класс, сердечко или что угодно еще.

0
5 комментариев
Алексей Камов

А для macOS?

Ответить
Развернуть ветку
Борис Иванов
Автор

Мака нет, не могу помочь

Ответить
Развернуть ветку
Alexander Tkachenko

Актуальней и проще онлайн формат.

Но за статью-инструкцию спасибо!

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Гуру Фриланса

Опробовал на одном своем видеоролике. Расшифровал хорошо, совершил только одну ошибку (одно слово исковеркал). Работает быстро. Спасибо за статью!

Ответить
Развернуть ветку
2 комментария
Раскрывать всегда