Bot Polina: Анализ голосовых сообщений в Telegram с помощью ChatGPT

Скажите, что не меня одного бесит, когда в середине рабочего дня, друзья прямо в общем чате устроили обсуждение какой-то темы длинными голосовыми? Или жена прислала аудио на 5 минут, когда вы на совещании или важном звонке, и остается только гадать, насколько срочный там вопрос?

Привет всем! Меня зовут Игорь Филиппов, и я веб-разработчик. Долгое время меня мучила проблема: мои друзья любят обмениваться голосовыми сообщениями в общих чатах в Telegram, иногда оочень долгими. Здорово, когда у вас есть время послушать их все. Но что, если вам некогда? И вы хотите получить суть сообщения без прослушивания каждого длинного войса? Именно так ко мне пришла идея создать нового Telegram-бота: Polina Voice Messages Recognizer.

Сначала я написал его для себя и своих друзей, но он оказался слишком хорошим, чтобы не поделиться им с миром))

Исходное сообщение на целых 3 минуты, где человек просто объясняет, почему не захотел придти на встречу.
Исходное сообщение на целых 3 минуты, где человек просто объясняет, почему не захотел придти на встречу.

В чем смысл бота?

Бот расшифровывает ваши голосовые сообщения в Telegram. Но было бы слишком просто ограничить его функционал только распознаванием текста, верно? Поэтому была добавлена интеграция с ChatGPT, и в дополнение к распознанному тексту, вы получаете краткое содержание всего голосового буквально в одном-двух предложениях.

Попробуйте и проверьте на себе, насколько сокращается время на понимание основной мысли/вопроса/того, что хотел сказать автор.

Есть два варианта работы с ботом:

  • Добавляйте его прямо в ваши групповые чаты. Бот будет обрабатывать все голосовые сообщения, которые поступают в группу, и, помимо полной расшифровки, автоматически предоставляет краткое резюме под каждым из них. Таким образом, вы всегда в курсе обсуждения, не тратя кучу времени на прослушивание длинных голосовых и подключаясь только по мере необходимости.
  • Вы можете пересылать ему аудио сообщения в личку из любых ваших чатов, будь то группа, канал или просто переписка с вашим приятелем.

Но есть же Telegram Premium?

Логичный вопрос, который может возникнуть - зачем нужен бот, если функционал распознавания аудио уже есть в premium подписке Telegram? Расскажу на примере с группой или чатом. Если вы зашли вечером, и увидели, что днем была активная дискуссия на 50+ сообщений, из них ~15 войсов под 2-3-5 минут, то нужно кликнуть на каждый и дождаться пока Telegram напишет расшифровку (а это бывает достаточно долго). У вас отсутствует возможность быстро проскролить чат и ухватить суть, прочитав переписку по диагонали. В случае, когда бот добавлен в группу, вы можете прочитать только краткое содержание всех сообщений и в считанные секунды влиться в разговор.

Вот еще пару примеров:

Пример работы бота в группе
Пример работы бота в группе
Пример работы бота в личных сообщениях
Пример работы бота в личных сообщениях

Что под капотом?

Под капотом плотная интеграция с OpenAI. Модель whisper используется для расшифровки голоса и перевода его в текст, а модель gpt-3.5-turbo - для предоставления краткого содержания исходного текста.

На старте, для преобразования голоса в текст я выбрал Yandex SpeechKit, но после некоторых тестов выяснилось, что аналогичный сервис от OpenAI справляется лучше: нет ограничения в 30 секунд для аудиофайлов (поэтому не нужно резать длинные войсы на фрагменты, из-за чего некоторые слова терялись из распознанного текста, так как попадали на конец/начало фрагмента), неплохо расставляет пунктуацию (Яндекс отдает неразмеченный текст) и самое важное - он кратно дешевле.

Мои голосовые сообщения будут храниться у вас на сервере?

Нет, на сервере не хранятся ни оригиналы аудио сообщений, ни расшифровки или краткие пересказы. Хранится только мета-информация для статистики: сколько голосовых было обработано, сколько использовались сервисы OpenAI и т.д.

Что дальше? Монетизация?

Сейчас монетизации нет, но если расходы на инфраструктуру и OpenAI сервисы будут превышать разумные пределы, подумаю над внедрением недорогой подписной модели, например, за полный безлимит во все группы, где вы - участник. Или можно будет у активных участников ежемесячно клянчить скромный донат :)

Я постоянно работаю над улучшением бота, и мне будет очень интересно услышать ваши отзывы и получить фидбек. Если у вас есть идеи или замечания, пожалуйста, оставьте комментарий. Ваше мнение поможет сделать бота еще лучше!

Кстати, ссылка на бота здесь.

Лайк, шер, репост приветствуются :)

1313
6 комментариев

Интересно, искал что то подобное, протестим

1
Ответить

Прикольная альтернатива Премиума)
Потестил, распознает хорошо.

1
Ответить

Кстати, если будете в группы добавлять, не забудьте дать боту права админа, даже просто админа максимально зарезанного в плане прав. Это особенность телеги, без админ прав бот в группах работать не может.

1
Ответить

спасибо за крутого бота)

1
Ответить

спасибо ,нужно будет опробовать

Ответить

Забавно, не использовал Telegram Premium, так что для меня это будет что-то новое)

Ответить