{"id":14274,"url":"\/distributions\/14274\/click?bit=1&hash=fadd1ae2f2e07e0dfe00a9cff0f1f56eecf48fb8ab0df0b0bfa4004b70b3f9e6","title":"\u0427\u0435\u043c \u043c\u0443\u0440\u0430\u0432\u044c\u0438\u043d\u044b\u0435 \u0434\u043e\u0440\u043e\u0436\u043a\u0438 \u043f\u043e\u043c\u043e\u0433\u0430\u044e\u0442 \u043f\u0440\u043e\u0433\u0440\u0430\u043c\u043c\u0438\u0441\u0442\u0430\u043c?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"6fbf3884-3bcf-55d2-978b-295966d75ee2"}

Bot Polina: Анализ голосовых сообщений в Telegram с помощью ChatGPT

Скажите, что не меня одного бесит, когда в середине рабочего дня, друзья прямо в общем чате устроили обсуждение какой-то темы длинными голосовыми? Или жена прислала аудио на 5 минут, когда вы на совещании или важном звонке, и остается только гадать, насколько срочный там вопрос?

Привет всем! Меня зовут Игорь Филиппов, и я веб-разработчик. Долгое время меня мучила проблема: мои друзья любят обмениваться голосовыми сообщениями в общих чатах в Telegram, иногда оочень долгими. Здорово, когда у вас есть время послушать их все. Но что, если вам некогда? И вы хотите получить суть сообщения без прослушивания каждого длинного войса? Именно так ко мне пришла идея создать нового Telegram-бота: Polina Voice Messages Recognizer.

Сначала я написал его для себя и своих друзей, но он оказался слишком хорошим, чтобы не поделиться им с миром))

Исходное сообщение на целых 3 минуты, где человек просто объясняет, почему не захотел придти на встречу.

В чем смысл бота?

Бот расшифровывает ваши голосовые сообщения в Telegram. Но было бы слишком просто ограничить его функционал только распознаванием текста, верно? Поэтому была добавлена интеграция с ChatGPT, и в дополнение к распознанному тексту, вы получаете краткое содержание всего голосового буквально в одном-двух предложениях.

Попробуйте и проверьте на себе, насколько сокращается время на понимание основной мысли/вопроса/того, что хотел сказать автор.

Есть два варианта работы с ботом:

  • Добавляйте его прямо в ваши групповые чаты. Бот будет обрабатывать все голосовые сообщения, которые поступают в группу, и, помимо полной расшифровки, автоматически предоставляет краткое резюме под каждым из них. Таким образом, вы всегда в курсе обсуждения, не тратя кучу времени на прослушивание длинных голосовых и подключаясь только по мере необходимости.
  • Вы можете пересылать ему аудио сообщения в личку из любых ваших чатов, будь то группа, канал или просто переписка с вашим приятелем.

Но есть же Telegram Premium?

Логичный вопрос, который может возникнуть - зачем нужен бот, если функционал распознавания аудио уже есть в premium подписке Telegram? Расскажу на примере с группой или чатом. Если вы зашли вечером, и увидели, что днем была активная дискуссия на 50+ сообщений, из них ~15 войсов под 2-3-5 минут, то нужно кликнуть на каждый и дождаться пока Telegram напишет расшифровку (а это бывает достаточно долго). У вас отсутствует возможность быстро проскролить чат и ухватить суть, прочитав переписку по диагонали. В случае, когда бот добавлен в группу, вы можете прочитать только краткое содержание всех сообщений и в считанные секунды влиться в разговор.

Вот еще пару примеров:

Пример работы бота в группе
Пример работы бота в личных сообщениях

Что под капотом?

Под капотом плотная интеграция с OpenAI. Модель whisper используется для расшифровки голоса и перевода его в текст, а модель gpt-3.5-turbo - для предоставления краткого содержания исходного текста.

На старте, для преобразования голоса в текст я выбрал Yandex SpeechKit, но после некоторых тестов выяснилось, что аналогичный сервис от OpenAI справляется лучше: нет ограничения в 30 секунд для аудиофайлов (поэтому не нужно резать длинные войсы на фрагменты, из-за чего некоторые слова терялись из распознанного текста, так как попадали на конец/начало фрагмента), неплохо расставляет пунктуацию (Яндекс отдает неразмеченный текст) и самое важное - он кратно дешевле.

Мои голосовые сообщения будут храниться у вас на сервере?

Нет, на сервере не хранятся ни оригиналы аудио сообщений, ни расшифровки или краткие пересказы. Хранится только мета-информация для статистики: сколько голосовых было обработано, сколько использовались сервисы OpenAI и т.д.

Что дальше? Монетизация?

Сейчас монетизации нет, но если расходы на инфраструктуру и OpenAI сервисы будут превышать разумные пределы, подумаю над внедрением недорогой подписной модели, например, за полный безлимит во все группы, где вы - участник. Или можно будет у активных участников ежемесячно клянчить скромный донат :)

Я постоянно работаю над улучшением бота, и мне будет очень интересно услышать ваши отзывы и получить фидбек. Если у вас есть идеи или замечания, пожалуйста, оставьте комментарий. Ваше мнение поможет сделать бота еще лучше!

Кстати, ссылка на бота здесь.

Лайк, шер, репост приветствуются :)

0
6 комментариев
Написать комментарий...
Иван Драго

Интересно, искал что то подобное, протестим

Ответить
Развернуть ветку
Ilya Shumiy

Прикольная альтернатива Премиума)
Потестил, распознает хорошо.

Ответить
Развернуть ветку
Цукерберг не позвонил
Автор

Кстати, если будете в группы добавлять, не забудьте дать боту права админа, даже просто админа максимально зарезанного в плане прав. Это особенность телеги, без админ прав бот в группах работать не может.

Ответить
Развернуть ветку
Тони

спасибо за крутого бота)

Ответить
Развернуть ветку
Влад Гаврилов

спасибо ,нужно будет опробовать

Ответить
Развернуть ветку
Илья Шепелев

Забавно, не использовал Telegram Premium, так что для меня это будет что-то новое)

Ответить
Развернуть ветку
3 комментария
Раскрывать всегда