Да это понятно, так у всех. Там суть в том, что можно диктовать прям код, они будут распознавать переменные вокруг и правильно всё вставлять. Они учитывают контекст приложения
Офигеть, как долго. Я про то и говорю: минута аудио расшифровывается вечность
У вас вышло 0.7 секунд только на обработку текста. Вы выше говорили, что влом ждать 0.8 секунд транскрибацию и обработку вместе.
Локально транскрибировать через Whisper минуту аудио — целая вечность.
Eleven Labs ответит за 500 мс, и пост-обработка не нужна.
Но я, разумеется, не отговариваю вас. Я понимаю, что некоторым нравятся локальные модели.
Вообще я обычно использую Wispr Flow, у них даже для IDE есть адаптация. Это я из спортивного интереса сделал своё, большой нужды в этом нет.
Нет, я имею в виду надиктовать этот вопрос. И использовать Nemotron только для корректировки ошибок. И проверить, не захочет ли она сразу ответить.
Попробуйте спросить, кто такой Марк Цукерберг ツ
Nemotron, как и другие глупые крошечные модели, не слушается промптов. Он постоянно норовит ответить на вопрос, а не поправить в нём ошибки. Диктуешь «Кто такой Марк Цукерберг?» — а он сам отвечает вместо корректировки транскрибации.
А еще у Whisper, кстати, проблема с вопросительными предложениями. Он не ставит знак вопроса там, где он нужен.
Да, я тоже через своё приложение использую.
Initial prompt у Whisper — максимум 224 токена, остальное обрезается. Туда не влезают все нужные слова.
В вашем примере еще не хватает дефиса в «планинг-режиме». Это тоже очень раздражает. Поэтому с этой глупой моделью не обойтись без пост-обработки, иначе будет неграмотное говно.
Кстати, Whisper Large V3 можно использовать через Groq — у них смехотворно высокая скорость, от отправки запроса до получения у меня выходит ~300 мс. И бесплатно дают 8 часов аудио в день.
Там же можно использовать для пост-обработки GPT-OSS 120B. Он там тоже нереально быстрый — типа . И тоже щедрые бесплатные лимиты.
Так получится очень быстро и надежно, лучшее решение для открытых моделей, не нужно свой процессор нагревать. Но всё равно недостаточно хорошо по сравнению с проприетарными.
Eleven Labs без всякой пост-обработки даёт лучший результат, без проблем понимает Claude, Mythos и прочие сложные слова. И не надо ручками их добавлять потом.
На втором и третьем месте — Gemini Flash и Mistral Voxtral. Они сильно лучше Whisper, есть бесплатные лимиты, но и платные стоят три копейки. Flash иногда долго отвечает, типа 2 секунды, а Voxtral — очень быстрый (~400 мс).
А меня как раз и раздражает, что она не понимает айтишные термины. Она, например, не способна распознать «Claude Code». Пост-обработка не помогает и увеличивает время ожидания
У меня средняя скорость на весь процесс — 480 мс. Также у меня фолбек на Whisper. Если интернет есть — работает нормальная облачная модель. Если нет — переключается на локальное говно.
У нас с вами, очевидно, разные требования к качеству результата. Меня устраивает только безупречная грамотность на выходе. А вы говорите, что в основном Клоду диктуете, а он переваривает даже три ошибки в каждом слове.
А я ещё постоянно диктую сообщения в Телеграме. Если бы мне кто-то присылал сообщения, надиктованные через Whisper — я бы вряд ли получал удовольствие от такого общения.