На самом деле OpenAI уже победила эту проблему своим GPT-4o. У мультимодальных моделей в 1000x раз больше знаний о текстах и она понимает любые термины, которые были в интернете. Но использовать эту возможность пока могут только избранные пару компаний, доступ к API для видео/аудио не публичный еще. Вот в Gemini от Гугла уже можно попробовать.
На данный момент это ещё не так (как минимум в анонсе анонс gpt4o нет никаких сравнений с околонулевым процентом ошибок), особенно для русского языка и не самых частых акцентов английского. На языках восточной европы у GPT-4o сейчас 6% ошибок. Кажется, что это достаточно много, чтобы для использования таких транскриптов их приходилось подправлять. Как минимум, у Whisper уже было 6% ошибок на языках западной европы, и задача полностью решённой не считалась. Кроме того, GPT-4o демонстрировали только на задачах с короткими текстами, когда пользователь буквально разговаривает с ней (под это модель и тренировали). В промышленном распознавании речи объёмы текстов в разы больше, а времени отводится меньше. Например, у того же Whisper аудио обрабатывается за время, в 10 раз меньшее, чем его длительность, и ограничений по объёму текста нет. Будет ли сохраняться превосходство по точности в таких условиях?
При этом, очевидно, тексты всё равно нужно будет править в случаях, когда заранее не удалось сообщить весь необходимый контекст (ни модель, ни человек не может всегда угадывать о чём речь без контекста). А подбор этой вспомогательной информации может быть очень сложным.
Для меня транскрибаторы - одна из тех вещей, которые жду от нейросетей. Пока что правда не понравились тесты)
P.S. сервисы из выпуска не пробовал
Над текстами все-таки работать приходится после транскрибации, особенно над аббревиатурами, названиями, фамилиями...
На самом деле OpenAI уже победила эту проблему своим GPT-4o. У мультимодальных моделей в 1000x раз больше знаний о текстах и она понимает любые термины, которые были в интернете. Но использовать эту возможность пока могут только избранные пару компаний, доступ к API для видео/аудио не публичный еще. Вот в Gemini от Гугла уже можно попробовать.
Будем ждать, мне бы это сильно в работе над текстовыми версиями подкаста помогло)
На данный момент это ещё не так (как минимум в анонсе анонс gpt4o нет никаких сравнений с околонулевым процентом ошибок), особенно для русского языка и не самых частых акцентов английского.
На языках восточной европы у GPT-4o сейчас 6% ошибок. Кажется, что это достаточно много, чтобы для использования таких транскриптов их приходилось подправлять. Как минимум, у Whisper уже было 6% ошибок на языках западной европы, и задача полностью решённой не считалась.
Кроме того, GPT-4o демонстрировали только на задачах с короткими текстами, когда пользователь буквально разговаривает с ней (под это модель и тренировали). В промышленном распознавании речи объёмы текстов в разы больше, а времени отводится меньше. Например, у того же Whisper аудио обрабатывается за время, в 10 раз меньшее, чем его длительность, и ограничений по объёму текста нет. Будет ли сохраняться превосходство по точности в таких условиях?
При этом, очевидно, тексты всё равно нужно будет править в случаях, когда заранее не удалось сообщить весь необходимый контекст (ни модель, ни человек не может всегда угадывать о чём речь без контекста). А подбор этой вспомогательной информации может быть очень сложным.