Что умеет нейросеть Whisper от OpenAi? Звук-в-текст

Почему-то, на фоне ChatGPT и Midjourney, эта нейросеть не справедливо обделена вниманием. А ведь она - путь к цифровизации речи. Расшифровка голосовых, запросы голосом к ChatGPT и другое.

Техническая часть

Что о Whisper говорит сам OpenAi

Мы обучили и открыли исходный код нейронной сети под названием Whisper, которая приближается по надежности и точности к человеческому уровню распознавания английской речи.


Слова OpenAI про Whisper

Whisper — это система автоматического распознавания речи (ASR), обученная на 680 000 часов многоязычных и многозадачных контролируемых данных, собранных из Интернета. Мы показываем, что использование такого большого и разнообразного набора данных приводит к повышению устойчивости к акцентам, фоновому шуму и техническому языку. Кроме того, он позволяет транскрипцию на нескольких языках, а также перевод с этих языков на английский. Мы предлагаем модели и код логического вывода с открытым исходным кодом, которые служат основой для создания полезных приложений и дальнейших исследований в области надежной обработки речи.

Что умеет нейросеть Whisper от OpenAi? Звук-в-текст

Архитектура Whisper представляет собой простой сквозной подход, реализованный в виде преобразователя кодер-декодер. Входной звук разбивается на 30-секундные фрагменты, преобразуется в спектрограмму log-Mel, а затем передается в кодировщик. Декодер обучен предсказывать соответствующий текстовый заголовок, смешанный со специальными токенами, которые направляют единую модель для выполнения таких задач, как идентификация языка, временные метки на уровне фраз, транскрипция многоязычной речи и перевод речи на английский язык.

Что умеет нейросеть Whisper от OpenAi? Звук-в-текст

Другие существующие подходы часто используют меньшие по размеру, более тесно связанные наборы данных для обучения аудио-тексту. 1 2 ,3или используйте обширную, но неконтролируемую аудио предварительную подготовку. 4 ,5 ,6 Поскольку Whisper обучался на большом и разнообразном наборе данных и не настраивался на какой-либо конкретный набор данных, он не превосходит модели, специализирующиеся на производительности LibriSpeech, известном конкурентном эталоне распознавания речи. Однако когда мы измеряем производительность Whisper с не определенными заданными рамками входными данными по множеству разнообразных наборов данных, мы обнаруживаем, что он гораздо более надежен и допускает на 50 % меньше ошибок, чем эти модели.

Около трети набора аудиоданных Whisper не на английском языке, и перед ним попеременно ставится задача расшифровки на языке оригинала или перевода на английский язык. Мы считаем, что этот подход особенно эффективен при обучении переводу речи в текст и превосходит контролируемую SOTA на CoVoST2 для перевода на английский язык с нулевым выстрелом.

Теперь простыми словами. Что же умеет Whisper?

Он умеет превращать аудио в текст. Вот и все=)

Но он это делает, возможно, лучше всех других нейросетей. Особенно, если это английский язык.

А как можно реализовать его?

  • Расшифровка голосовых
  • Расшифровка судебных заседаний
  • Перевод в текст аудиолекций
  • Многое другое

Как пользоваться нейросетью Whisper?

Так как, почему-то производитель не сделал тестовый открытый доступ этой нейросети, ей можно пользоваться, только подрубив Api к своим сервисам.

Вариант 1. Если вы владеете кодом

Если вы пользуетесь питоном, мы можете сами залить на свой веб или тг интерфейс эту нейросеть. Тут писали об этом.

Но стоит отметить, что прежде, чем получить код Api, вам нужно пройти процедуру регистрации на OpenAI (в принципе, идентично, как с ChatGPT):

  • Подключить VPN и зайти с отдельного браузера (желательно)
  • Арендовать иностранную симку для подтверждения аккаунта OpenAI
  • Зарегиться
  • В личном кабинете получить код api

Подробнее я писал о том, как создать аккаунт в OpenAi тут:

Важный момент: пользование нейросетью платное. Это значит, что вам так же нужно раздобыть иностранную карту и прикрепить ее к аккаунту OpenAI.

2 вариант. Быстро и тоже платно

Как и другими нейросетями, виспером вы можете пользоваться через наш сервис в телеграм.

Там есть возможности:

  • перевод в текст аудиофайлов длиной до 1 часа
  • расшифровка голосовых Whatsapp (ну и других любых)
  • немного запросов к ChatGPT голосом
  • длинные файлы сохраняются в файл и разделяются на абзацы

Более подробно функционал расписали тут. Так же у нас на сайте есть сервисы KolerskyAi с другими нейросетями.

22
Начать дискуссию