Нейросети для расшифровки аудио: как сделать конспект лекции или получить саммари встречи
Распознают русский язык, определяют спикеров и ставят таймкоды.
Проверили, какие нейросети смогут расшифровать аудиозаписи на русском языке: понять все слова, верно расставить знаки препинания и разбить текст на абзацы по смыслу. Для чистоты эксперимента всем нейросетям дали одно задание: расшифровать отрывки из аудиосказок на русском и английском языках.
Недаром говорят: с милым поссориться 一 самого себя наказать.
Хм! Не зря говорят: друга встретить 一 что клад найти.
Long ago and far away, in enchanted lands across the seas, lived kings and queens, princes and princesses, good fairies and wicked witches.
Memo AI
Что умеет: расшифровывает видео и аудио (в том числе голосовые сообщения в Telegram и «кружочки»), определяет реплики разных спикеров, ставит таймкоды.
Языки: 99 языков, включая русский.
Форматы: аудио и видео, файлы можно импортировать или отдать нейросети ссылку на YouTube и «Google Диск».
Сколько стоит: 30 минут транскрибации бесплатно, подписки стоят от 289 рублей в месяц. Можно оплатить картой российского банка.
Регистрация: через аккаунт Google или электронную почту. В боте Telegram дополнительная регистрация не нужна.
Нейросеть справилась с аудио и на русском, и на английском языках. Все знаки препинания расставила правильно. Отдельный балл за расшифровку восклицания «Хм». Другие сервисы его не расслышали.
Sonix
Что умеет: расшифровывает аудио и видео, генерирует субтитры и перевод, делает краткое содержание встреч.
Языки: 53 языка, включая русский.
Форматы: аудио, видео (максимальный размер импортируемых файлов 一 4 Гб). Также принимает ссылки на контент, который нужно расшифровать. Есть интеграция с Zoom и Google Meet.
Сколько стоит: 30 минут контента расшифрует бесплатно. Платные подписки стоят от $22 в месяц (≈1762 рубля по данным ЦБ на 31 июля 2025 года).
Регистрация: через аккаунт Google или электронную почту.
Ссылка: браузерная версия.
Текст нейросеть распознала без ошибок. Но со знаками препинания не справилась: нет запятых и двоеточий, местами всплывают лишние точки и вопросительные знаки. Это затрудняет восприятие текста.
Transkriptor
Что умеет: расшифровывает аудио и видео, определяет спикеров и таймкоды, составляет персонализированную базу знаний, даёт доступ к внутреннему чат-боту, делает заметки на встречах, генерирует субтитры.
Языки: более 100, включая русский.
Форматы: аудио, видео. Расшифровывает ролики на YouTube, есть интеграция с Zoom, Google Meet, Discord.
Сколько стоит: бесплатно до 30 минут перевода и одна расшифровка в день. Платные тарифы от $8,33 в месяц (≈674 рубля).
Регистрация: через аккаунт Google или электронную почту.
Ссылки: браузерная версия, приложение для iOS и Android, расширение для Chrome.
Английский язык нейросеть распознала почти точно. Знаки препинания на месте, но есть одна ошибка в написании: «princess» вместо «princes». А вот с русским языком начались проблемы. Неверно расставлены знаки препинания и логические паузы. Первую реплику ИИ разбил на два абзаца. А вместо фразы «клад найти» получилось «классно идти». Чат-бот в левой части экрана предлагает помочь с пересказом и анализом текста 一 функция может помочь тем, кто изучает английский язык.
Notta
Что умеет: расшифровывает видео и аудио (можно импортировать файлы или начать запись прямо в браузере), записывает встречи, определяет спикеров, генерирует краткое содержание контента, ищет информацию по расшифрованному контенту.
Языки: 42 языка, включая русский.
Форматы: аудио, видео, ссылка на контент, интеграция с Google и Microsoft Outlook.
Сколько стоит: бесплатная версия предлагает 120 минут расшифровки в месяц (не более трёх минут за раз и не более 50 файлов в месяц). Платная подписка стоит от €7 в месяц (≈650 рублей).
Регистрация: через аккаунты Google, Microsoft, Apple или по электронной почте.
В транскрибации сказки на русском языке нейросеть допустила ошибку. Вместо «клад найти» получилось «найти жизнь». При этом английский текст ИИ обработал верно, даже расставил запятые там, где спикер делал паузу.
Otter.ai
Что умеет: расшифровывает аудио и видео, определяет спикеров, делает краткое содержание встреч.
Языки: английский, испанский и французский.
Форматы: аудиофайлы, видео, есть интеграция с Zoom, Google Meet.
Сколько стоит: есть бесплатный тариф, хватит на три транскрибации аудио или видео. Более точную информацию о максимально допустимом весе файлов найти не удалось. Но с расшифровкой полуторачасового фильма Otter справился в бесплатном тарифе за 22 минуты. Платная подписка стоит от $8,33 в месяц (≈1780 рублей).
Регистрация: через почту, аккаунт Google или Microsoft.
Ссылки: браузерная версия, расширение для Chrome, приложения для Android и iOS.
С русским языком Otter не работает, а вот сказку на английском расшифровал без ошибок. При этом сервису дали задание обработать сказку целиком (файл весит 8094 Кб), на это ушло две минуты.