На самом деле OpenAI уже победила эту проблему своим GPT-4o. У мультимодальных моделей в 1000x раз…

07.06.2024

Бизнес на ИИ: нейросети переводят речь в текст

Второй эпизод «сериала» про ИИ-стартапы. Поговорили, как создать стартап на технологии превращения аудио или видео файлов в текст: как собрать сильную команду, привлечь инвестора на стадии MVP, найти клиентов и получить грант от государства.

5454

разместить

Александр Глушков

07.06.2024

Для меня транскрибаторы - одна из тех вещей, которые жду от нейросетей. Пока что правда не понравились тесты)
P.S. сервисы из выпуска не пробовал

Ответить

Дмитрий Беговатов

07.06.2024

Автор

Над текстами все-таки работать приходится после транскрибации, особенно над аббревиатурами, названиями, фамилиями...

Ответить

# Без Воды

07.06.2024

На самом деле OpenAI уже победила эту проблему своим GPT-4o. У мультимодальных моделей в 1000x раз больше знаний о текстах и она понимает любые термины, которые были в интернете. Но использовать эту возможность пока могут только избранные пару компаний, доступ к API для видео/аудио не публичный еще. Вот в Gemini от Гугла уже можно попробовать.

Ответить

Дмитрий Беговатов

07.06.2024

Автор

Будем ждать, мне бы это сильно в работе над текстовыми версиями подкаста помогло)

Ответить

Anastasia Semenova

07.06.2024

На данный момент это ещё не так (как минимум в анонсе анонс gpt4o нет никаких сравнений с околонулевым процентом ошибок), особенно для русского языка и не самых частых акцентов английского.
На языках восточной европы у GPT-4o сейчас 6% ошибок. Кажется, что это достаточно много, чтобы для использования таких транскриптов их приходилось подправлять. Как минимум, у Whisper уже было 6% ошибок на языках западной европы, и задача полностью решённой не считалась.
Кроме того, GPT-4o демонстрировали только на задачах с короткими текстами, когда пользователь буквально разговаривает с ней (под это модель и тренировали). В промышленном распознавании речи объёмы текстов в разы больше, а времени отводится меньше. Например, у того же Whisper аудио обрабатывается за время, в 10 раз меньшее, чем его длительность, и ограничений по объёму текста нет. Будет ли сохраняться превосходство по точности в таких условиях?

При этом, очевидно, тексты всё равно нужно будет править в случаях, когда заранее не удалось сообщить весь необходимый контекст (ни модель, ни человек не может всегда угадывать о чём речь без контекста). А подбор этой вспомогательной информации может быть очень сложным.

Ответить

[]