Telegram-бот Silero бесплатно переводит речь в текст
Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины.
Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.
Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).
Как воспользоваться
Нужно просто пройти по ссылке или просто открыть страницу бота @silero_audio_bot в Телеграме. Затем:
- Введите команду /start для старта;
- /help и /faq помогут понять основные допущения и ограничения в работе;
Сразу добавлять бота в группу, до того как вы пообщались с ним лично, не надо.
Ключевые особенности и отличия от существующих решений
Сразу чтобы вы понимали — мы разрабатываем алгоритмы, а не просто перекладываем ваши персональные данные в "джейсончики" в АПИ корпораций. Все алгоритмы и разработки, участвующие в работе бота, наши собственные.
Мы гордимся тем, что:
- Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
- Наша система распознавания как минимум не уступает решениям корпораций (вопрос дискуссионный, по нашим исследованиям на примерно 20 разных доменах наша система была лучшей на большинстве из них, кроме ряда ярких исключений, типа звонков в банки);
- Бот "пытается" быть максимально удобным с точки зрения UX и читабельности в рамках возможностей Телеграма;
Мы НЕ делаем следующих вещей:
- Мы НЕ собираем данные о пользователях;
- Мы НЕ занимаемся "продажей аудитории" инвесторам или третьим лицам;
- Мы НЕ шлем ваши данные в АПИ корпораций или компаний, аффилированных с олигархическими структурами;
- Мы НЕ присваиваем себе чужих достижений, все наработки наши собственные;
Безопасность и ограничения
Ограничение 20 мегабайт на файл для Телеграма мы не стали снимать, потому что в нормальном аудио формате в 20 мегабайт можно уместить достаточно длинное аудио для данного UX-сценария и повторюсь, что есть отдельный сервис для "длинных" аудио, который будет развиваться отдельно. С точки зрения удобства пользователя странно в мессенджере решать десктопные юзкейсы.
У каждого пользователя есть лимит, мы блокируем ботов и пресекаем нецелевое использование доступными нам методами.
Мы полностью шифруем весь трафик и данные. Мы не "дарим" ваши персональные данные корпорациям или олигархическим (или аффилированным с ними) структурам.
Дальнейшее развитие
Так же, как и наше решение для транскрибации длинных файлов, мы будем развивать и улучшать наше решение, если оно будет полезно народу. В каком-то смысле судьба бота и наличие независимого инструмента в ваших руках.
Мы постарались сделать все по красоте, но если будут какие-то баги и проблемы, мы будем благодарны комьюнити за помощь. В первое время возможны небольшие перебои с работой при раскатке фиксов, но мы надеемся, что мы уже отладили 95% всех краевых случаев, а оставшиеся 5% можно будет быстро поправить или понять и простить.
Мы уже нашли и поправили ряд краевых случаев, мы стараемся оперативно вносить их в /faq.
Это жесть, распознает очень плохо
говорите просто фразы из брат 2 и все нормально распознается
Вы довольно многого требуете от современных технологий. Со специфическими терминами возникают проблемы у многих систем распознавания речи, будь то Силеро, Яндекс, Гугл или Сбер.
Просто нужно чётко говорить) дикция🤟 Супер бот!! Слава разработчикам!
было бы идеально если бы мессенджеры сделали автоматический перевод голосовых в текстовые сообщения. за это реально не жалко было бы задонатить) а то есть персонажы особой породы, любители голосовых…)))
Комментарий недоступен
Идеально было бы просто дать каждому пользователю решать, хочет он принимать голосовые или нет. Это намного проще, легче и быстрее. Продолжать модернизировать свои системы вполне можно будет на оставшихся упоротых. Их, наверняка, будет немало
Мне по работе часто абсолютно неудобно печатать а информации необходимо сообщить большое количество быстро и резко, и голосовые в данном случае очень удобны, если они удобны и твоему собеседнику. Плюс в ВК, например, уже давно полно ботов, которые относительно приемлемо распознают речь.
В аське это уже года 4 как есть
Есть такие люди, речь которых распознать трудно даже человеку, даже если вы перед ним находитесь, и у вас есть навык чтения по губам, все равно нихрена не понятно. Такую ахинею иногда несут. Про людей с нарушением слуха или речи я не говорю, здесь другое дело. Так что идеально скорее всего не будет никогда. А то какой нибудь генерал армии какой нибудь страны, наговорит на мессенджер, и случайно подлодка всплывет где-то, а он всего лишь водку заказывал.
Не поверишь, в яндекс мессенджере есть такой функционал.
Возможно, недолго ждать осталось. Whatsapp уже пилит такую фичу: https://wabetainfo.com/whatsapp-is-working-on-voice-message-transcription/
Вот что надо бы телеграму вводить, а не рекламу. За такую возможность и я бы заплатил)
а куда делся Voicy
Все еще есть, не успел прикрутить Silero к себе!
Вы не написали, что Вам надоело и подтолкнуло к созданию бота.
Не совсем понял, что именно надоело.
Звучит неплохо. На днях протестирую.
А на деле шляпа
Комментарий удален модератором
Дуров тоже говорил "рекламы не будет" ))))
Да, и еще Дуров с самого начала имел большие вливания капитала из неоднозначных источников.
Хочется спросить, какое это имеет отношение к нам?
реклама есть, но вы держитесь
@voicybot
это ты?
Чето мне как пользователю же пох что у вас там под капотом. Свои технологии или обертки над сторонним апи. Я изначально скептически был настроен, я не верю что мелкая контора может сделать такой технологически емкий продукт лучше, чем целые отделения MS, гугла и прочих корпораций. Ну и судя по комментам я был прав - пипл кидает скриншоты что у вас технология слабая
Здорово, что вы делаете такие вещи)
В чём принципиальное отличие от @VoiceMsgBot, который существует больше года в большинстве групп и уже покрылся мхом?
Принципиальное отличие в том что тут собственный движок
Это как бы очень круто если и правда работает.
Я свечку не держал, но готов предположить что там wit
И то, и это говно нерабочее.
Дуров тоже говорил "рекламы не будет" )))) запятые бот ставит?
Вот картинка из заголовка статьи. Да, ставит.
Комментарий недоступен
Расстановка знаков препинания и заглавных букв делается только для упрощения чтения.
Вообще письменная речь и спонтанная устная имеют довольно мало общего, если внимательно поразбираться.
Супер разработка. Почему в РФ такая дикая ноющая негативная реакция на всё своё. Странный народ)
Нормализация аудио может работать лучше -иногда на записи один собеседник говорит тихо, а второй -нормально. Тихий сигнал-принимается за шум и на выходе - монолог Гамлета. Можно бы нормализовать кусочек «шума» до более высоких значений и распознать его повторно -вдруг там что-то есть. Еще смешивает собеседников -по факту часто неверно разделяет
стандартная функция «нормализации не работает в таком разе, нужно резать на куски и отдельно нормализовать. ps анализировались диктофонные записи, шума постороннего практически нет; речь хорошо различима при нормализации до 300%
Нормализация аудио фигово работает -часто один собес говорит тихо( если пишешь на диктофон например :) или запись звонка, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета
Нормализация аудио фигово работает -часто один собес говорит тихо( если пишешь на диктофон например :) или запись звонка, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета
Нормализация аудио фигово работает -часто один собес говорит тихо( если пишешь на диктофон например :) или запись звонка, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета
Нормализация аудио фигово работает -часто на записи один собеседник говорит тихо, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета. Вам бы нормализовать кусочек «шума» до более высоких значений и распознать его повторно -вдруг там что-то есть. Плюс мешанина из собеседников -по факту не разделяет
Технически, чтобы разделить всех говорящих инструменты у нас есть.
На практике, для публичного бесплатного инструмента принцип garbage in = garbage out очень сильно ограничивает применимость.
И скорее всего настроив под один кейс, в других будут проблемы. Поэтому мы просто не ставили задачу отрабатывать такие кейсы.
почему в боте нет поддержки m4a а на сайте есть?
На сайте более страшный зоопарк из библиотек. В плане свести все к общему знаменателю (но в сторону упрощения), это итерационный процесс. В конечном итоге мы читаем аудио сейчас через sox, там есть определенные проблемы с рядом форматов. А тащить ffmpeg не хочется.
https://t.me/snakers4/2852
Imagine that you receive a binary blob and you have to efficiently:
- First tell if it is an audio;
- Then understand its format;
- Then parse its length;
- Then read it if it satisfies some conditions;
In research, typically you can jus...
Imagine that you receive a binary blob and you have to efficiently:
- First tell if it is an audio;
- Then understand its format;
- Then parse its length;
- Then read it if it satisfies some conditions;
In research, typically you can just try reading the file. But in production reading and downloading the whole file should be delayed as much as possible.
Long story short, after many iterations of trial and error - the best combination is python magic + torchaudio with sox backend.
The first one is a general well-established library and the second one is based around a CFFI sox wrapper (it is fast, e.g. 3-4x faster than ffmpeg) and has a nice and clean API.
Also we used to use libsoundfile / pysoundfile and tinytag, but this combination blows other libraries out of the water.
Закинул песню метелицы дорога сна- поржал но идея хорошо
Ок, попробуем.
Люди в группе хотят отключение временных меток.
Круто
Отлично распознаёт! Вы круто сделали! У большинства просто речь не как у артистов, вот и не разобрать боту
А зачем если с этим гуглъ клава справляется на ура
Есть 3 причины
- 95% пользователей об этом не знают
- 5% выключили все сервисы гугла
- поддержка независимого отечественного производителя нас, а не корпорации из США
Судя по вашему тексту она справляется на уровне собаки.
.
Комментарий удален модератором
Зачем бот, если есть iME?
Обновления по горячим следам
- FAQ с самыми актуальными вопросами для тех, но не нашел его в самом телеграме — https://habr.com/ru/post/591563/#comment_23749573
- Важно — я настроил вроде бота, чтобы его не нужно было делать админом в группе (пишите в комментариях или в личку про свой опыт)
- Важное обновление — баг с "затором" в боте пофикшен
- Остался баг с пересылкой файлов с мобильных клиентов и / или из вотсаппа и / или из музыкальной библиотеки телеграма.
Обновления по горячим следам 2
- Баг с пересылкой файлов пофиксили, все оказалось проще — дело было в отсутствующем MIME-типе;
- Еще раз пофиксили баги с заторами, вроде дело было в том, что если ответить 500 телеге, то она начинает копить сообщения, и потом это приводит к затору;
- Навесили try/catch в несколько ключевых мест;
Это лучший расшифровщик из встреченных мной. Естественно идеал в таких вещах трудно достижим, но тот файл, который я закинула, был расшифрован на 90% верно, это очень хороший результат!
Имхо дерьмо полное.
Работает через пень колоду.
Хорошее приложение. Все работает. Можно ли настроить так, чтобы оставался только текст, а аудио файл удалялся сразу после конвертации
Сообщение удалено