{"id":9390,"title":"\u041a\u0430\u043a \u0443\u0434\u0430\u043b\u0451\u043d\u043d\u044b\u0439 \u0434\u043e\u0441\u0442\u0443\u043f \u043f\u043e\u043c\u043e\u0433\u0430\u0435\u0442 \u0437\u0430\u0449\u0438\u0442\u0438\u0442\u044c \u0440\u0430\u0431\u043e\u0447\u0438\u0435 \u043a\u043e\u043c\u043f\u044c\u044e\u0442\u0435\u0440\u044b ","url":"\/redirect?component=advertising&id=9390&url=https:\/\/vc.ru\/promo\/305439-reshenie-dlya-biznesa-zashchitit-rabochie-kompyutery-i-tratit-menshe-na-tehpodderzhku&placeBit=1&hash=4ea9d1d61c4062a3298d30372d4661b75dccd4b06bc8ec1d444f810e530f2e6c","isPaidAndBannersEnabled":false}
Трибуна
Alexander Veysov

Telegram-бот Silero бесплатно переводит речь в текст

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины.

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

Как воспользоваться

Нужно просто пройти по ссылке или просто открыть страницу бота @silero_audio_bot в Телеграме. Затем:

  • Введите команду /start для старта;
  • /help и /faq помогут понять основные допущения и ограничения в работе;

Сразу добавлять бота в группу, до того как вы пообщались с ним лично, не надо.

Ключевые особенности и отличия от существующих решений

Сразу чтобы вы понимали — мы разрабатываем алгоритмы, а не просто перекладываем ваши персональные данные в "джейсончики" в АПИ корпораций. Все алгоритмы и разработки, участвующие в работе бота, наши собственные.

Мы гордимся тем, что:

  • Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;
  • Наша система распознавания как минимум не уступает решениям корпораций (вопрос дискуссионный, по нашим исследованиям на примерно 20 разных доменах наша система была лучшей на большинстве из них, кроме ряда ярких исключений, типа звонков в банки);
  • Бот "пытается" быть максимально удобным с точки зрения UX и читабельности в рамках возможностей Телеграма;

Мы НЕ делаем следующих вещей:

  • Мы НЕ собираем данные о пользователях;
  • Мы НЕ занимаемся "продажей аудитории" инвесторам или третьим лицам;
  • Мы НЕ шлем ваши данные в АПИ корпораций или компаний, аффилированных с олигархическими структурами;
  • Мы НЕ присваиваем себе чужих достижений, все наработки наши собственные;

Безопасность и ограничения

Ограничение 20 мегабайт на файл для Телеграма мы не стали снимать, потому что в нормальном аудио формате в 20 мегабайт можно уместить достаточно длинное аудио для данного UX-сценария и повторюсь, что есть отдельный сервис для "длинных" аудио, который будет развиваться отдельно. С точки зрения удобства пользователя странно в мессенджере решать десктопные юзкейсы.

У каждого пользователя есть лимит, мы блокируем ботов и пресекаем нецелевое использование доступными нам методами.

Мы полностью шифруем весь трафик и данные. Мы не "дарим" ваши персональные данные корпорациям или олигархическим (или аффилированным с ними) структурам.

Дальнейшее развитие

Так же, как и наше решение для транскрибации длинных файлов, мы будем развивать и улучшать наше решение, если оно будет полезно народу. В каком-то смысле судьба бота и наличие независимого инструмента в ваших руках.

Мы постарались сделать все по красоте, но если будут какие-то баги и проблемы, мы будем благодарны комьюнити за помощь. В первое время возможны небольшие перебои с работой при раскатке фиксов, но мы надеемся, что мы уже отладили 95% всех краевых случаев, а оставшиеся 5% можно будет быстро поправить или понять и простить.

Мы уже нашли и поправили ряд краевых случаев, мы стараемся оперативно вносить их в /faq.

0
135 комментариев
Популярные
По порядку
Написать комментарий...
Флексий Гром

Это жесть, распознает очень плохо

Ответить
19
Развернуть ветку
Martin Prestone

говорите просто фразы из брат 2 и все нормально распознается

Ответить
122
Развернуть ветку
Дмитрий Воробьёв
Ответить
9
Развернуть ветку
Анна Слижикова

Вы довольно многого требуете от современных технологий. Со специфическими терминами возникают проблемы у многих систем распознавания речи, будь то Силеро, Яндекс, Гугл или Сбер.

Ответить
2
Развернуть ветку
Alexander Veysov

На эту тему мы постарались что-то даже написать в /faq.

Редкие имена собственные, редкие термины, жаргон, смешение языков, айтишные термины - итд итп - все это так плотно вошло в обиход, что мы не замечаем.

Для алгоритмов это всегда сложно. С этим можно бороться, но странно было бы ожидать от бесплатного публичного решения идеальной работы с каким-то узким доменом.

Именно по этой причине я ловлю когнитивный диссонанс с вещей типа copilot.

Ответить
5
Развернуть ветку
Ватная Корзиночка

"странно ожидать от бесплатного публичного" - вы так подчеркиваете везде его бесплатность, как будто вам памятник поставить надо. По факту вы на людях тестите и дообучаете свою нейросеточку забесплатно, чтоб потом продать для какого-нибудь корпоративного решения. Если б вы реально топили за "бесплатную публичность", то выложили бы сорцы, как это сделали, например, opencv.

Ответить
57
Развернуть ветку
Soul Manioe

Разъеб...🤣

Ответить
15
Развернуть ветку
Alexander Veysov

Мы нигде не скрывали, что это один из способов (далеко не самый быстрый и полезный замечу) для набора доп. базы сообщений.

Повторю - ключевой момент состоит в том, что:

- Мы не собираем и не продаем ваши перс. данные

- Мы сделали полностью полноценное решение и не являемся аналогичным сборщиком данных для корпораций и не просто перкоадываем json от пользователей Гуглу

Ответить
0
Развернуть ветку
Мутный корабль

Зато самый бесплатный, да?

Ответить
6
Развернуть ветку
Ivan Zamorev

Вы молодцы! Удивительно сколько негатива на vc. Ну Россия, что сказать)

Ответить
2
Развернуть ветку
Alexander Veysov

Внезапно, я был удивлен насколько здесь более токсично, чем даже на Хабре.

Ответить
2
Развернуть ветку
Ivan Zamorev

Хабр вершина. Там разработчики 🤟🤓

Ответить
0
Развернуть ветку
Ivan Zamorev

Да, обучается и прекрасно. Бесплатный только сыр в мышеловке.

Ответить
0
Развернуть ветку
Angel Vivaldi

а еще он везде говорит что они не продают персональные данные пользователей (: и минусит всех кто критикует это поделье

Ответить
–1
Развернуть ветку
Ivan Zamorev

Очень крутая разработка! Относитесь снисходительно к негативу российского менталитета) Распознаёт отлично если чётко говорить. Успехов вам! Можно наговорить любой текст 👍 только отключите пожалуйста аудио ссылки. Будет единый чистый текст 🤟

Ответить
0
Развернуть ветку
Константин Хиксводел

Как будто с таксистом поговорил, современные шуточные технологии.

Ответить
1
Развернуть ветку
Ivan Zamorev

Просто нужно чётко говорить) дикция🤟 Супер бот!! Слава разработчикам!

Ответить
1
Развернуть ветку
Alexander Veysov

По идее наш STT плохо справляется, если есть музыка, сильный шум, эмоциональная речь, крики. Спокойная и четкая речь должна работать даже с телефонным качеством. Мы постарались отразить все эти краевые случаи в /faq

Ответить
1
Развернуть ветку
Ivan Zamorev

Получилось здорово. Сделайте пожалуйста без таймкодов. Тогда это будет полноценное превращение в текст 👍 применений тьма. Добавьте подписку на большие объёмы и растите 🤟🤓

Ответить
2
Развернуть ветку
Евгений Найдёнов

было бы идеально если бы мессенджеры сделали автоматический перевод голосовых в текстовые сообщения. за это реально не жалко было бы задонатить) а то есть персонажы особой породы, любители голосовых…)))

Ответить
9
Развернуть ветку
Мутный корабль

Пример изящного решения проблемы:

Ответить
20
Развернуть ветку
Юрий Белоножкин

Блин, как включить?

Ответить
1
Развернуть ветку
Мутный корабль

Ну, набираешь этот текст, сохраняешь и отправляешь любителям голосовых 😁

Ответить
6
Развернуть ветку
Ivan Zamorev

Дискорд не умеет голосовые. Там переговорные чаты. А просто общение лучше голосом конечно, удобнее

Ответить
0
Развернуть ветку
Антон Кузьмин

Только нужно, чтобы это работало в обе стороны - если запретил принимать аудио, то не можешь и отправлять))

Ответить
1
Развернуть ветку
Viktor Kutolkin

Идеально было бы просто дать каждому пользователю решать, хочет он принимать голосовые или нет. Это намного проще, легче и быстрее. Продолжать модернизировать свои системы вполне можно будет на оставшихся упоротых. Их, наверняка, будет немало

Ответить
13
Развернуть ветку
Никита Орлов

Мне по работе часто абсолютно неудобно печатать а информации необходимо сообщить большое количество быстро и резко, и голосовые в данном случае очень удобны, если они удобны и твоему собеседнику. Плюс в ВК, например, уже давно полно ботов, которые относительно приемлемо распознают речь.

Ответить
0
Развернуть ветку
Виталий Воробьев

Всегда удивляюсь, когда кому-то неудобно печатать и теперь собеседнику придется неудобно трубку у уха держать две минуты, параллельно ища комп/бумажку куда он поток мыслей перепишет и структурирует в задачу.

Ответить
25
Развернуть ветку
Никита Орлов

Офисный планктон да, ты в офисе в тепле сидишь, а теперь прикинь ты с камерой на морозе, и тебе надо такому же отморозку что-то сообщить по быстрому. Это в сто раз удобнее, чем печатать замёршими руками. Но офисным жителям, конечно не понять, это да. Впрочем плевать на ваши проблемы. Не хочешь не пиши, если мне неудобно я тебе писать всё равно ничего не буду. В моей среде рабочее общение в 9 из 10 случаев голосовые всё равно и всем удобно, так что боль тех, кто не любит голосовые - исключительно ваши проблемы. Мир не идеален - не хочешь не пиши, не получишь голосовых. Текстом я всё равно писать не буду если мне не удобно.

Ответить
4
Развернуть ветку
Sergey Ilyin

+. Если неудобно писать - ну ок, сам себе надиктуй, доберёшься до того места, где можно написать - напишешь

Ответить
0
Развернуть ветку
Utin Antip

Так есть же набор текста голосом

Ответить
10
Развернуть ветку
Илья Шишкунов

Он работает на аналогичных ботах, только куда хуже

Ответить
2
Развернуть ветку
Антон Кузьмин

Поставьте себя на место получателя вашего потока сознания )

Ответить
1
Развернуть ветку
Никита Орлов

Прикинь, нам всем так удобно. Мнение офисного планктона спросили забыть. Ты в тепле сидишь - тебе удобно печатать и читать, на морозе с камерой в перчатках - я тебе печатать ничего не буду. Нужно что-то, не обломаешься - послушаешь. Или не пиши вообще.

Ответить
1
Развернуть ветку
Антон Кузьмин

Ты чего такой злой? Всего-то надо было закинуть - мол чуваки смотрите какой кейс: используем аудиосообщения вместо рации.

А «офисный планктон» сразу представил себе, как в аудио надиктовывается тз на 2 листа.

Ответить
3
Развернуть ветку
Никита Орлов

Где я злой то? Просто по пунктам объяснил, что за пределами привычной офисным жителям реальности - есть ещё абсолютно другая.

Ответить
0
Развернуть ветку
Евгений Найдёнов

согласен, но одно дело на морозе не можешь печатать, потому что не возможности, а другое дело когда «на морозе» не думая о получателе надиктовывается ТЗ или правки по проекту.
заметил, люди умеющие мыслить письменно более понятные в общении.

Ответить
1
Развернуть ветку
Никита Орлов

Я другим занимаюсь, и мне ясно излагаться практически не требуется. Если бы я работал в IT, понятно, что мыслил бы по-другому.

Ответить
0
Развернуть ветку
Lexx Sky

В аське это уже года 4 как есть

Ответить
2
Развернуть ветку
Мутный корабль

Шитоооо?

Ответить
1
Развернуть ветку
Lexx Sky

Агась. Аська. Уже 4 года как. Аська

Ответить
2
Развернуть ветку
John Fima

поиск по ключевым опозиционным фразам удобно искать

Ответить
1
Развернуть ветку
Константин Хиксводел

Есть такие люди, речь которых распознать трудно даже человеку, даже если вы перед ним находитесь, и у вас есть навык чтения по губам, все равно нихрена не понятно. Такую ахинею иногда несут. Про людей с нарушением слуха или речи я не говорю, здесь другое дело. Так что идеально скорее всего не будет никогда. А то какой нибудь генерал армии какой нибудь страны, наговорит на мессенджер, и случайно подлодка всплывет где-то, а он всего лишь водку заказывал.

Ответить
2
Развернуть ветку
Oleg Karpov

Это понятно, что идеально не будет. Но я любому решению буду рад. Чтобы эти сраные голсовухи прослушать, столько тело движений лишних, это капец.
Если в итоге будет голосовуха, а под ней текст, вообще отлично.
Еще мне зашла возможность в whatsapp - все голосовухи можно ускорить. В два раз быстрей все эти мэ-ки, эээ-ки можно прослушать

Ответить
1
Развернуть ветку
Arman Kurmanbay

Небольшой лайфхак, не самый удобный, но иногда помогает. В десктопной версии WhatsApp можно скачать голосовые сообщения, закинуть в Google Speech to Text (https://cloud.google.com/speech-to-text) и получить транскрипцию

Ответить
1
Развернуть ветку
Константин Хиксводел

Типа как реклама на радио, в ускоренном режиме, тоже хрен разберёшь. Есть одна мадам , особенно раздражает, вся суть в двух словах, но нет же, надо кучу намычать в микрофон бесполезной болтовни 🤦‍♀️ Иногда говорю людям, пишите на почту) есть повод ответить позже.

Ответить
0
Развернуть ветку
Andrey M.

+100500!👍😭🙄👍)))))

Ответить
0
Развернуть ветку
Евгений Рогов

Не поверишь, в яндекс мессенджере есть такой функционал.

Ответить
1
Развернуть ветку
Константин Хиксводел

Так в Ватсап же можно наговорить, а он сам все преобразует в текст. Удобно и тому кому неудобно печатать, и тому кому не удобно слушать по 2-3 минуты чьё то голосовое сообщение.

Ответить
1
Развернуть ветку
Oleg Karpov

Для большинства людей, которые любят голосовухами общаться, разобраться - где эта волшебная кнопка - высший пилотаж.

Ответить
3
Развернуть ветку
Arman Kurmanbay

Это вроде функция не WhatsApp, а функция голосового набора клавиатуры

Ответить
0
Развернуть ветку
Игорь Гольмаков

Вот что надо бы телеграму вводить, а не рекламу. За такую возможность и я бы заплатил)

Ответить
0
Развернуть ветку
Гаджимурад Магомедрасулов

а куда делся Voicy

Ответить
3
Развернуть ветку
borodutch

Все еще есть, не успел прикрутить Silero к себе!

Ответить
3
Развернуть ветку
Alexander Veysov

Мы общались с его автором полтора года назад, но дело с тех пор особо не сдвинулось.

Не так давно также выяснилось (автор даже сам пишет об этом в своем блоге), что он продает данные своих пользователей или "аудиторию" инвесторам. Что напрямую противоречит нашим ценностям и идеологии.

По этой причине мы решили не плодить зависимости и просто сделать бота самим. Благо для коллег с опытом создания ботов это буквально дело нескольких дней работы (оттестировать все краевые кейсы и сделать нормальный UX сложнее, но сейчас кажется остался только один такой важный кейс).

И тот факт, что все технологии здесь наши и мы не просто передаём json из одного АПИ в другое, процесс упрощает на порядок. Так что как обычно - мой посыл поддерживайте производителя а не middleware)

Ответить
–5
Развернуть ветку
borodutch

Александр, "автор" тут. Ну зачем же вот так открыто врать?

что он продает данные своих пользователей или "аудиторию" инвесторам.
Ни копейки с Voicy я так и не заработал — кому продаю? Кто мои инвесторы, кроме меня самого? Откуда вы понабрали этого?

Ответить
17
Развернуть ветку
borodutch

Алло! Там черным по белому написано "rejected". Я наоборот *отказался* от оффера продажи — и именно по этическим причинам.

Ответить
12
Развернуть ветку
Alexander Veysov

С одной стороны, можно сказать, что мне раза три что-то такое поедлагали и я отказывался. И в принципе бессмысленно говорить о том, что не случилось.

Но я предпочитаю не писать о таком, это противоречит моим принципам и будет воспринято понятно как.

С другой - все мы вроде не маленькие дети и не вчера родились, и очевидно зачем пишутся такие посты и какие цели они преследуют.

Ответить
–15
Развернуть ветку
borodutch

Я не продал — плохой. Вы не продали — хороший. Крутая риторика.

Ответить
27
Развернуть ветку
Alexander Veysov

Чтобы не говорить без пруфов внесу корректировку.

Не продает, а находится в процессе / рассматривает опции продажи.

Но это само по себе означает принятия правил игры.

Ответить
–15
Развернуть ветку
borodutch

Не вижу корректировки в оригинальном сообщении. Говорите прямо: что за игра и что в ней за правила? И с чего вы взяли, что я их принял?

Ответить
12
Развернуть ветку
Alexander Veysov

Это скатывается в бессмысленную риторику.

Тренды глобальные и понятные, маргинализация науки и образования, размывание норм социального государства, примат интересов капитала и общества потребления.

При отсутствии конкуренции со стороны классического конкурента в виде социалистической системы, капитал распрясывается. Формируется биполярный мир, но уже с Китаем. На фоне этого бесконечный системный кризис нашей модели вследствие постоянного негативного сальдо по капиталу приводит к все более диким проявлениям этого самого купи продай.

Мой постулат состоит в том, что если открыто и публично постулируется участие в переговорных процессах - то правила игры приняты и преследуются понятные хрестоматийные цели.

Мысли читать я не умею, в постулирование благих намерений с помощью слов, а не действий, верю мало.

Ответить
–9
Развернуть ветку
borodutch

Проблема в том, что вы еще и действия игнорируете, когда они не вписываются в вашу картину мира.

Я отказался от $600K за Войси по причине желания покупателя неэтично пользоваться данными. Но это действие, конечно, вы просто игнорируете, ведь оно не вписывается в вашу риторику "все вокруг плохие, кроме меня".

Ответить
16
Развернуть ветку
Alexander Veysov

Доказывать наличие чего-то отсутствием чего это классический трюк, не имеющий ничего общего с материалистической картиной мира.

Отрицание лжи это правда. Но так можно доказать например существование невидимых розовых летающих слонов. Их никто не видел, но они же невилимые! Суслика не видно, но он есть.

Было бы занятно, если бы допустим реальные вопросы решались так. Докажите свою невиновность. Но наши свидетели не видели, что вы не делали ничего плохого.

Поэтому любые серьезные вещи судят по положительным документированным фактам. Стороны договорились, вот мотивация, вот пруфы.

А вот другие вещи бросаются в глаза.

Ответить
–11
Развернуть ветку
borodutch

Докажите свою невиновность.

Блин, вроде как, серьезный человек, создал Silero, а настолько неадекватно рассуждает. Думаю, на этом диалог можно закончить.

Ответить
9
Развернуть ветку
Alexander Veysov

Я могу написать более нуля статей о том как я классно отказался от сделки, где наши технологии бы использовались неправильно. И за руку поймать нельзя - я же отказался! А вдруг кто-то хотел заплатить много денег? Но я же герой - отказался! Не проверите же никак, все под NDA!

Но я этого не делаю, потому что это противоречит принципам рационального мышления и будет воспринято публикой негативно.

А вот писать статьи про текущую капитализацию миддлверного проекта сдабривая virtue signalling-ом это уже позитивные факты. Это случилось, есть пруф. Вы находясь в трезвом уме и памяти сделали это.

И презумпцией невиновности это вообще не имеет ничего общего.

Если коротко - факты => мотивации => экономическая логика. А не домыслы и доказательство через отрицание несуществования.

Ответить
–11
Развернуть ветку
Boris

Уважаемый, вам предложат много - вы согласитесь, как следует из ваших же утверждений. Я вас не осуждаю, дело житейское и даже вполне понятное.
Зато отвратительно выглядит как вы сейчас елозите на жеппе, пытаясь выглядеть мудрым и возвышенным. Я бы рекомендовал себе на вашем месте просто признать свою ошибку сразу

Ответить
12
Развернуть ветку
Илья Шишкунов

Вот вам дизов, презумпция невиновности это самое важное в тех принципах, которые вы сами декламирует тут, так что я вам теперь вообще не верил бы
Учитесь признавать свои ошибки

Ответить
1
Развернуть ветку
Роман Рабочий

Странная история, у одного хороший бот, у другого хороший движок.
Но нет, не договорились, и судя по всему никогда не договоритесь)

Ответить
0
Развернуть ветку
Илья Шишкунов

Зря отказался, кстати, лучше иметь 600к баксов, чем не иметь

Ответить
0
Развернуть ветку
Илья Шишкунов

За сотку рублей продашь?

Ответить
0
Развернуть ветку
Timon

А вы также автор "бородача" @Beardy_bot?

Ответить
0
Развернуть ветку
borodutch

Нет.

Ответить
0
Развернуть ветку
Семен Переделкин

Звучит неплохо. На днях протестирую.

Ответить
1
Развернуть ветку
Алексей Сергеев

А на деле шляпа

Ответить
10
Развернуть ветку

Комментарий удален

Развернуть ветку
Valentin Dombrovsky

Вы не написали, что Вам надоело и подтолкнуло к созданию бота.

Ответить
3
Развернуть ветку
Alexander Veysov

Не совсем понял, что именно надоело.

Ответить
0
Развернуть ветку
Valentin Dombrovsky

Это локальный мем.

Ответить
1
Развернуть ветку
Anna Petrova

Дуров тоже говорил "рекламы не будет" ))))

Ответить
2
Развернуть ветку
Alexander Veysov

Да, и еще Дуров с самого начала имел большие вливания капитала из неоднозначных источников.

Хочется спросить, какое это имеет отношение к нам?

Ответить
0
Развернуть ветку
Олег Радов

реклама есть, но вы держитесь

Ответить
1
Развернуть ветку
Nathan Zachary

@voicybot
это ты?

Ответить
2
Развернуть ветку
Бабка в засаде

Чето мне как пользователю же пох что у вас там под капотом. Свои технологии или обертки над сторонним апи. Я изначально скептически был настроен, я не верю что мелкая контора может сделать такой технологически емкий продукт лучше, чем целые отделения MS, гугла и прочих корпораций. Ну и судя по комментам я был прав - пипл кидает скриншоты что у вас технология слабая

Ответить
2
Развернуть ветку
Wonabeez Doratie

Здорово, что вы делаете такие вещи)

Ответить
1
Развернуть ветку
Dmitry Perepelkin

В чём принципиальное отличие от @VoiceMsgBot, который существует больше года в большинстве групп и уже покрылся мхом?

Ответить
1
Развернуть ветку
Leha Shum

Принципиальное отличие в том что тут собственный движок
Это как бы очень круто если и правда работает.

Ответить
1
Развернуть ветку
Alexander Veysov

Я свечку не держал, но готов предположить что там wit

Ответить
1
Развернуть ветку
Мутный корабль

И то, и это говно нерабочее.

Ответить
0
Развернуть ветку
Anna Petrova

Дуров тоже говорил "рекламы не будет" )))) запятые бот ставит?

Ответить
1
Развернуть ветку
Alexander Veysov

Вот картинка из заголовка статьи. Да, ставит.

Ответить
–4
Развернуть ветку
Anna Petrova

Да да, картинку вижу. Но хотелось уточнить )))
Очень интересно.
Движок / алгоритм распознавания свой?

Ответить
1
Развернуть ветку
Alexander Veysov

Вроде этот момент тоже явно в статье отразил:

Мы гордимся тем, что: Бот работает на основе наших систем детекции речи (кстати ее скоро ждет огромное обновление!), распознавания речи, простановки знаков препинания и заглавных букв;

Ответить
–2
Развернуть ветку
Филипп

А что насчёт ограничений? Есть ограничение на размер файла? А может у вас есть отдельный сервис для работы с большими файлами?

И насчёт безопасности, Вы как-то шифруете данные?

Ответить
3
Развернуть ветку
Alexander Veysov

Это тоже все отразил в статье. Если коротко повторить:

- .. нашего бесплатного публичного решения для транскрибации длинных аудио - https://audio-v-text.silero.ai/
- Ограничения можно посмотреть в самом боте, начав пользоваться, они конечно же есть
- Везде end-to-end шифрование

Ответить
0
Развернуть ветку
Всвиторе

- Везде end-to-end шифрование
Почему везде? На скриншоте незашифрованный текст. Лукавите.

Ответить
2
Развернуть ветку
Alexander Veysov

Когда вы на сайт по НTTPS заходите, в браузере у вас тоже кракозябры, а сертификат в чипе в мозгу расшифровывает?

Или в том же телеграмме? Всем людям, хоть сколько понятно, что подразумеваются шифрованные интерфейсы обмена информацией между машинами.

Людям показывают читабельный текст.

Ответить
0
Развернуть ветку
Э

Функцию юмор включи.

Ответить
3
Развернуть ветку
Филипп

Ну я же шучу :)

Ответить
1
Развернуть ветку
Мутный корабль

А почему так плохо с пунктуацией у бота?

Ответить
0
Развернуть ветку
Alexander Veysov

Расстановка знаков препинания и заглавных букв делается только для упрощения чтения.

Вообще письменная речь и спонтанная устная имеют довольно мало общего, если внимательно поразбираться.

Ответить
1
Развернуть ветку
Ivan Zamorev

Вы можете распознавать слова "точка" как . слова "восклицательный знак" как ! и пр 👍

Ответить
0
Развернуть ветку
Ivan Zamorev

Супер разработка. Почему в РФ такая дикая ноющая негативная реакция на всё своё. Странный народ)

Ответить
0
Развернуть ветку
Roman No

Нормализация аудио может работать лучше -иногда на записи один собеседник говорит тихо, а второй -нормально. Тихий сигнал-принимается за шум и на выходе - монолог Гамлета. Можно бы нормализовать кусочек «шума» до более высоких значений и распознать его повторно -вдруг там что-то есть. Еще смешивает собеседников -по факту часто неверно разделяет

Ответить
1
Развернуть ветку
Roman No

стандартная функция «нормализации не работает в таком разе, нужно резать на куски и отдельно нормализовать. ps анализировались диктофонные записи, шума постороннего практически нет; речь хорошо различима при нормализации до 300%

Ответить
0
Развернуть ветку
Alexander Veysov

У нас сейчас сначала применяется VAD, а потом нормализация и все остальное.

Ответить
1
Развернуть ветку
Roman No

-А вот на таких данных не работает! -Э-э-э, батенька, это у вас неверные данные. наш VAD не может ошибаться, а этап выбора технологий давно пройден. :)

Ответить
0
Развернуть ветку
Alexander Veysov

Если в вашем юзкейсе люди делают очень много пауз, то странно требовать кастомизации бесплатного публичного инструмента

Если нужен глубокий кастом и адаптация под домен - это услуга, которую мы оказываем коммерчески

Ответить
0
Развернуть ветку
Roman No

Нормализация аудио фигово работает -часто один собес говорит тихо( если пишешь на диктофон например :) или запись звонка, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета

Ответить
1
Развернуть ветку
Roman No

Нормализация аудио фигово работает -часто один собес говорит тихо( если пишешь на диктофон например :) или запись звонка, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета

Ответить
1
Развернуть ветку
Roman No

Нормализация аудио фигово работает -часто один собес говорит тихо( если пишешь на диктофон например :) или запись звонка, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета

Ответить
1
Развернуть ветку
Roman No

Нормализация аудио фигово работает -часто на записи один собеседник говорит тихо, а второй -нормально. Тихий собес принимается за шум и на выходе - монолог Гамлета. Вам бы нормализовать кусочек «шума» до более высоких значений и распознать его повторно -вдруг там что-то есть. Плюс мешанина из собеседников -по факту не разделяет

Ответить
1
Развернуть ветку
Alexander Veysov

Технически, чтобы разделить всех говорящих инструменты у нас есть.

На практике, для публичного бесплатного инструмента принцип garbage in = garbage out очень сильно ограничивает применимость.

И скорее всего настроив под один кейс, в других будут проблемы. Поэтому мы просто не ставили задачу отрабатывать такие кейсы.

Ответить
0
Развернуть ветку
Anatol Seibel

почему в боте нет поддержки m4a а на сайте есть?

Ответить
1
Развернуть ветку
Alexander Veysov

На сайте более страшный зоопарк из библиотек. В плане свести все к общему знаменателю (но в сторону упрощения), это итерационный процесс. В конечном итоге мы читаем аудио сейчас через sox, там есть определенные проблемы с рядом форматов. А тащить ffmpeg не хочется.

https://t.me/snakers4/2852

Audio File Validation and Reading in The Wild

Imagine that you receive a binary blob and you have to efficiently:

- First tell if it is an audio;
- Then understand its format;
- Then parse its length;
- Then read it if it satisfies some conditions;

In research, typically you can jus...
Audio File Validation and Reading in The Wild

Imagine that you receive a binary blob and you have to efficiently:

- First tell if it is an audio;
- Then understand its format;
- Then parse its length;
- Then read it if it satisfies some conditions;

In research, typically you can just try reading the file. But in production reading and downloading the whole file should be delayed as much as possible.

Long story short, after many iterations of trial and error - the best combination is python magic + torchaudio with sox backend.

The first one is a general well-established library and the second one is based around a CFFI sox wrapper (it is fast, e.g. 3-4x faster than ffmpeg) and has a nice and clean API.

Also we used to use libsoundfile / pysoundfile and tinytag, but this combination blows other libraries out of the water.
Ответить
0
Развернуть ветку
Михаил Тищенко

Закинул песню метелицы дорога сна- поржал но идея хорошо

Ответить
1
Развернуть ветку
Alexander Veysov
Ответить
0
Развернуть ветку
Виталий

Ок, попробуем.

Ответить
1
Развернуть ветку
Виталий

Люди в группе хотят отключение временных меток.

Ответить
0
Развернуть ветку
Alexander Veysov

А зачем и почему?

Ответить
0
Развернуть ветку
Виталий

Они бесполезные, но ломают фразы, ломают на короткие строчки, увеличивают текст до огромных размеров, хотя там пара предложений.

Ответить
0
Развернуть ветку
Alexander Veysov

На короткие строчки фразы делятся из-за смысловых пауз в речи.

Ответить
0
Развернуть ветку
Виталий

Ну, то есть, это крайне важно для пользователя, просто он это не понимает, так выходит?

Ответить
0
Развернуть ветку
Alexander Veysov

Мы поставили задачу - дать интерфейс, который подойдет и пользователям с 1 предложением и пользователям с 10 минутами речи. Ключевой момент - полное отсутствие настроек на стороне пользователя. Если вы можете придумать как это решить изящнее - буду рад выслушать.

Ответить
0
Развернуть ветку
Ivan Zamorev

Круто

Ответить
1
Развернуть ветку
Ivan Zamorev

Отлично распознаёт! Вы круто сделали! У большинства просто речь не как у артистов, вот и не разобрать боту

Ответить
1
Развернуть ветку
Oleh Kasianov

А зачем если с этим гуглъ клава справляется на ура

Ответить
–1
Развернуть ветку
Alexander Veysov

Есть 3 причины

- 95% пользователей об этом не знают
- 5% выключили все сервисы гугла
- поддержка независимого отечественного производителя нас, а не корпорации из США

Ответить
1
Развернуть ветку
Виталий

Судя по вашему тексту она справляется на уровне собаки.

Ответить
0
Развернуть ветку
Gaenar S

.

Ответить
0
Развернуть ветку

Комментарий удален

Развернуть ветку
Михаил Лебедев

Зачем бот, если есть iME?

Ответить
0
Развернуть ветку
Alexander Veysov

Обновления по горячим следам

- FAQ с самыми актуальными вопросами для тех, но не нашел его в самом телеграме — https://habr.com/ru/post/591563/#comment_23749573
- Важно — я настроил вроде бота, чтобы его не нужно было делать админом в группе (пишите в комментариях или в личку про свой опыт)
- Важное обновление — баг с "затором" в боте пофикшен
- Остался баг с пересылкой файлов с мобильных клиентов и / или из вотсаппа и / или из музыкальной библиотеки телеграма.

Ответить
0
Развернуть ветку
Alexander Veysov

Обновления по горячим следам 2

- Баг с пересылкой файлов пофиксили, все оказалось проще — дело было в отсутствующем MIME-типе;
- Еще раз пофиксили баги с заторами, вроде дело было в том, что если ответить 500 телеге, то она начинает копить сообщения, и потом это приводит к затору;
- Навесили try/catch в несколько ключевых мест;

Ответить
0
Развернуть ветку
Alexander Veysov

Сообщение удалено

Ответить
–1
Развернуть ветку
Читать все 135 комментариев
Кейс Таргет. Как привлечь 379 заявок на покупку мужских костюмов и предотвратить закрытие ателье

Как я за 4 месяца привлек 379 заявок по 350 рублей на покупку мужских костюмов при среднем чеке 80 000 рублей

«Купи сейчас, плати потом»: новая классика или мимолетная мода

Сервис рассрочек рассказывает о новом финтех-тренде.

Отвыкли от минусов фондового рынка

Мы отвыкли от снижений - привычка от которой надо избавляться. Две недели как рынок устраивает красно-зеленые качели и в целом торгуется для большинства в минусе, пусть и небольшом, но минусе. Период, который стартовал в мае-июне прошлого года, привлекший огромное множество нас, простых смертных инвесторов, приучил, заложил привычку видеть…

Как сделать работу компаний и фрилансеров удобной

С помощью сервиса «Рокет Ворк».

Новый дизайн «Секрета фирмы» учтёт пользовательские сценарии потребления и поиска контента

О трендах бизнеса и экономики можно прочесть коротко и ясно в удобных форматах

Ozon и AliExpress начали задерживать доставку товаров на несколько дней Статьи редакции

Оператор доставки для маркетплейсов объяснил задержки загруженностью дорог в Сибири и на Дальнем Востоке и высоким спросом накануне праздников.

Мощные сервисы для быстрого машинного обучения: от GPU SuperCloud до суперкомпьютера

В последние три года мы видим рост спроса на технологии искусственного интеллекта (ИИ) и машинного обучения. Они проникли практически во все сферы нашей жизни, начиная от различных колл-центров и городских систем видеонаблюдения, заканчивая системами медицинского скрининга и диагностики заболеваний. Даже для оплаты проезда в столичной подземке…

Как выпустить заменитель соли на Boomstarter.ru и попасть в список Forbes

Сёстры из Астрахани запустили на Boomstarter.ru продажи нового продукта — зеленой соли. После этого их продукцию начали продавать в сетевых магазинах, а само бизнес-начинение журнал Forbes включил в список лучших стартапов.

No-code подход в мобильной разработке: будущее или мелкая ниша?

Меня зовут Алексей Жилин, я основатель агентства мобильной разработки SMD Agency, а также сооснователь стартапа Wiby, размышления о котором и натолкнули меня на написание этой статьи. Wiby - это сервис, в котором рестораны и доставки еды могут получить нативное мобильное приложение с бэк-офисом и интеграциями с основными CRM этой отрасли для…

null