«Писец» против шума: как «Сибирские нейросети» сделали идеальную расшифровку речи.
Многие сталкивались с ситуацией, когда после встречи или важной беседы приходится долго разбираться в записях и переводить их в понятный текст. Эта проблема особенно остро стоит в корпоративной среде, где важно точно зафиксировать каждое сказанное слово. Компания «Сибирские нейросети» нашла решение — сервис речевой аналитики «Писец», позволяющий качественно и оперативно перевести устную речь в текст.
Начало пути
История «Писца» началась в лабораториях Новосибирского госуниверситета, где группа молодых исследователей задались целью упростить жизнь аспирантам и студентам, вынужденным ежедневно тратить часы на расшифровку записей лекций и семинаров. Вместо утомительного перевода сотен страниц аудиоматериалов вручную, студенты хотели создать инструмент, который справится с задачей быстрее и точнее.
Первым шагом стало изучение существующих библиотек для распознавания речи. Но вскоре исследователи осознали, что существующие инструменты недостаточны для качественной обработки русского языка, особенно учитывая сложность русской фонетики и разнообразие акцентов. Тогда возникла необходимость разработки собственной уникальной архитектуры.
Проект развивался постепенно. Первоначально команда сосредоточилась на создании базовой платформы, обеспечивающей быстрое выделение и сегментацию речевых отрезков. Затем последовала интеграция нескольких нейронных сетей, позволивших существенно увеличить точность распознавания.
Особенности подхода
Особенностью «Писца» стала комбинация сразу нескольких методик. Изначально речь разбивается на фрагменты, затем устраняются посторонние звуки и помехи с помощью Audio Spectrogram Transformer (AST), и лишь после этого производится финальная расшифровка. Такой многоступенчатый подход позволил значительно уменьшить число ошибок и достичь высокого уровня точности.
Еще одним важным аспектом стало умение системы адаптироваться к разным условиям окружающей среды. Благодаря встроенной процедуре оптимизации («тюнингу») модель смогла учитывать разнообразные факторы, влияющие на качество записи, будь то уровень шума в помещении или наличие сильного акцента говорящих.
Применение в реальной жизни
Первоначально «Писец» использовался преимущественно для учебных целей, помогая студентам и исследователям экономить время на расшифровке материалов. Однако вскоре появились запросы от коммерческих организаций, заинтересованных в повышении эффективности своих рабочих процессов.
Одним из наиболее успешных применений стала установка «Писца» в банковских контакт-центрах. Используя специальный набор правил и критериев оценки, система отслеживала соблюдение стандартов обслуживания, выявляла отклонения и подсказывала сотрудникам способы улучшения взаимодействия с клиентами.
Другое направление использования — помощь в работе офисов, где регулярно проводятся важные переговоры и совещания. Здесь «Писец» обеспечивает точный и оперативный протокол обсуждения, позволяя участникам сосредоточиться на содержании дискуссии, а не на записи каждого произнесённого слова.
Международное сообщество также оценило вклад "Сибирских нейросетей". Статья о разработке была опубликована на престижной конференции NAACL 2025, подтвердив статус компании как лидера в своей области.
Дальнейшие перспективы
Несмотря на успешные тесты и активное применение, команда разработчиков продолжает совершенствовать своё детище. Уже разработан API-интерфейс, позволяющий клиентам самостоятельно настраивать модель под конкретные условия своего бизнеса. На подходе обновленный интерфейс и оптимизация модели, позволяющая обрабатывать данные без использования высокопроизводительных серверов и дата-центров.
Итак, «Писец» стал ярким примером того, как современные технологии могут облегчить повседневную жизнь и вывести бизнес-процессы на новый качественный уровень. Этот проект наглядно демонстрирует, насколько далеко продвинулись российские специалисты в области искусственного интеллекта и как они способны решать реальные практические задачи с высокой степенью точности и надежности.