Проблема пока только в том, что и Яндекс и все остальные STT хорошо процессят только качественную, монтажную речь, примерно как в видосе из поста. Если взять запись телефонного разговора, ну или там запись с какой-нибудь обычной рабочей встречи, то они все ломаются об многочисленные "ээээээ", невнятное произношение, англицизмы и внутренние термины.
Speechkit как как раз изначально создавался как b2b продукт для каналов и оборудования с неизвестным качеством сигнала. Где клиент будет использовать технологию заранее не понятно, поэтому работать должно везде.
Проблема пока только в том, что и Яндекс и все остальные STT хорошо процессят только качественную, монтажную речь, примерно как в видосе из поста. Если взять запись телефонного разговора, ну или там запись с какой-нибудь обычной рабочей встречи, то они все ломаются об многочисленные "ээээээ", невнятное произношение, англицизмы и внутренние термины.
Speechkit как как раз изначально создавался как b2b продукт для каналов и оборудования с неизвестным качеством сигнала. Где клиент будет использовать технологию заранее не понятно, поэтому работать должно везде.