За 2 дня навайбкодил офлайн-расшифровщик голосовых под Android

Вроде работает. Ниже поделюсь предысторией.

За 2 дня навайбкодил офлайн-расшифровщик голосовых под Android

Я часто наговариваю себе заметки. Иду в лес рядом с домом, где интернет ловит примерно никак, балдею от природы, деревьев... И вдруг идея! Достаю телефон, диктую, а уже дома разбираю бэклог.
Для расшифровки обычно прогоняю всё через «Буквицу». Отличный, кстати, сервис — писал про неё год назад. Точность на русском отличная, поддерживает кучу языков, недавно прикрутили диаризацию.

Но и «Буквица» не идеальна:

  • Работает только в Телеге. Чтобы расшифровать запись, надо включить ***, открыть бот, записать или переслать голосовое... Тут сами всё понимаете.
  • Нужен интернет. Вообще вопрос решаемый — аудио можно и позже транскрибировать. Но иногда бывали случаи, когда текст нужен «прям щас».
  • Цена. Около 4 000 ₽ за годовую подписку — квота на 30 часов в месяц. Много ли? Нет, если использовать для работы. Но для личного пользования хочется сэкономить.

На днях сидел, листал новости и нашел заметку на Хабре о том, что Сбер выкатил GigaAM v3 — компактную, довольно точную модель, заточенную под русский язык. Полистал репозиторий — на моём Андроиде должно было запуститься...

Короче, за два дня собрал приложуху и опубликовал в RuStore. Назвал «Не пиши голосовое!» — названия лучше не придумал.

Что получилось

Открываешь приложение, жмёшь большую красную кнопку, наговариваешь и через пару секунд получаешь текст. Всё — никаких облаков, аккаунтов, наличия интернета. Один раз только в самом начале нужно скачать модель распознавания на 300 мб. Записи лежат списком: можно переслушать, отредактировать текст, поделиться, удалить. Под шумок добавил светлую и тёмную темы.

Для понимающих: под капотом sherpa-onnx + GigaAM v3 от Сбера. INT8-версия модели весит около 305 МБ и скачивается один раз при первом запуске. Само приложение собрано на Expo / React Native. Тестировал на своём Poco M5S за 12 тысяч — на нём всё транскрибится без долгих подтормаживаний. На флагманах — вангую — будет ещё бодрее.

Бесплатно, без регистрации, без рекламы. Пока так.

Чему успел научиться за эти 2 дня

Я, как и многие теперь, agentic engineer. Хотя базово маркетолог и дизайнер. Но чем хороши нейронки — они отличные buddy. Чего-то не знаешь — запустил исследование, повыбирал стек, базово понял что с чем нужно поженить. А далее по нарастающей и вглубь. Только подписки успевай проплачивать — в работе использую Claude Max 5x.

Вообще, первоначальный стек собрал быстро — грабли были на стыке Expo и Android-сборки. В пути к проекту на Windows должна быть только латиница без пробелов, иначе Gradle и `expo prebuild` ругаются и не собирают APK. Не сразу осознал ошибку.

Что дальше

iOS-версия. Но когда-нибудь, ибо на моей Windows 11 не собрать — нужен MacBook и аккаунт разраба Apple. Покамест не обзавёлся.

Из фич планирую добавить пост-обработку текстов: чистить «эээ», ошибки, разбивать на абзацы. Возможно, потом запилю pro-версию с этими штуками, а базовое распознавание оставлю бесплатным.

Кому интересно: negolosom.ru. Сейчас только под Android.

P.S. Это не пост «нелюбви» к Буквице — она хорошая. Просто захотелось потренироваться с приложениями под мобилки и накатить что-то своё.

P.P.S. Ещё при работе за компом активно использую Handy. Замечательный, удобный и бесплатный инструмент, но нужно, чтобы комп тянул.

7
2 комментария