Anastasia Semenova

+3
с 07.06.2024
1 подписчик
0 подписок

Работая с B2B/B2G клиентами, необходимо глубоко с ними интегрироваться, настраиваясь на их специфическую тематику.
Мы работаем над качеством транскрипта, без чего, особенно в узнонаправленных образовательных нишах в технических и естественных науках, медицине и химии и т.д., не сделать качественный поиск и конспекты.
Опять же очень сомнительно, что Яндекс или Сбер будут делать интеграцию с Moodle, Reezonly и другими популярными на рынке LMS, которые используются учебными заведениями.

На данный момент это ещё не так (как минимум в анонсе анонс gpt4o нет никаких сравнений с околонулевым процентом ошибок), особенно для русского языка и не самых частых акцентов английского.
На языках восточной европы у GPT-4o сейчас 6% ошибок. Кажется, что это достаточно много, чтобы для использования таких транскриптов их приходилось подправлять. Как минимум, у Whisper уже было 6% ошибок на языках западной европы, и задача полностью решённой не считалась.
Кроме того, GPT-4o демонстрировали только на задачах с короткими текстами, когда пользователь буквально разговаривает с ней (под это модель и тренировали). В промышленном распознавании речи объёмы текстов в разы больше, а времени отводится меньше. Например, у того же Whisper аудио обрабатывается за время, в 10 раз меньшее, чем его длительность, и ограничений по объёму текста нет. Будет ли сохраняться превосходство по точности в таких условиях?

При этом, очевидно, тексты всё равно нужно будет править в случаях, когда заранее не удалось сообщить весь необходимый контекст (ни модель, ни человек не может всегда угадывать о чём речь без контекста). А подбор этой вспомогательной информации может быть очень сложным.

Спасибо, Дима, за организацию! Классный формат :)

2