Саммари видеозвонков на русском языке с помощью ИИ

Введение

За последние 5 лет популярность видеоконференций резко выросла. Причиной увеличения востребованности сервисов видеосвязи, конечно, была пандемия COVID-19. Многие компании, учебные заведения и группы людей столкнулись с необходимостью использовать видеоконференции для проведения своих деловых встреч, уроков и общения. Это дало толчок для модернизации сервисов и платформ для видеоконференций.

Сегодня, одним из главных направлений развития является интеграция копайлотов на основе искусственного интеллекта. Копайлоты — это интеллектуальные ассистенты, которые помогают участникам видеоконференции справиться с различными задачами, такими как автоматический перевод речи на разные языки, конспектирование встречи и подведение ее итогов, определение настроения участников, анализ данных, рекомендации для улучшения процесса коммуникации и т.д.

Изображение создано с помощью DALL-E
Изображение создано с помощью DALL-E

Рынок копайлотов и инструментов для видеоконференций быстро растет, привлекая внимание как крупных корпораций, так и малых предприятий. Компании, такие как Microsoft, Google и Amazon, внедряют свои собственные решения на основе ИИ, которые делают видеоконференции более удобными и продуктивными.

В этой статье мы рассмотрим ИИ-решения популярных ВКС-платформ, копайлоты для видеоконференций, ИИ-инструменты для видеосвязи от российских разработчиков и заострим внимание на качестве их работы с русским языком.

ИИ-решения популярных платформ

Начнем с наиболее популярных платформ, которые внедрили в свои продукты ИИ:

ИИ Zoom поддерживает 36 языков, в том числе русский. Разработчики заявляют, что этот интеллектуальный помощник способен транскрибировать конференции, создавать краткое содержание встречи, а также подсказывать пропущенную информацию для тех пользователей, которые подключились позже. Кроме того, Zoom AI Companion предлагает функцию субтитров.

Однако, в работе с русским языком возникают некоторые проблемы. Во-первых, инструмент не всегда корректно переводит русский язык, что особенно заметно, когда встреча проводится на русском, а субтитры отображаются на английском. Кроме того, саммари, созданные AI Companion на русском языке, часто оказываются неточными. К сожалению, сервис также не может отвечать на вопросы пользователей и создавать краткое содержание встречи, если ее продолжительность небольшая (5-7 минут).

Zoom предлагает публичный или гибридный облачный сервис. В гибридном облачном сервисе есть возможность выполнить развертывание коммуникационных серверов конференций, которые также известны как коннекторы конференций Zoom, во внутренней сети компании. Для управления метаданными пользователей и конференций используется публичное облако, а сами конференции при этом размещаются в частном облаке. Весь трафик конференции, в том числе видео, голос и данные, проходят через локальный коннектор конференций Zoom.

Zoom AI Companion предоставляется в качестве дополнительной услуги в платной версии платформы Zoom. Однако, в данный момент невозможно осуществить оплату подписки через российские банковские карты.

Google внедрили свою генеративную нейросеть Gemini в Google Meet. ИИ улучшает качество видео во время конференции, автоматически создает заметки и саммари, а также дает краткую сводку о том, что было сказано ранее во время встречи. В Google Meet есть также функция субтитров.

Google Meet поддерживает русский язык, однако саммари и заметки выходят неточными. Кроме того, отсутствует возможность переводить субтитры с иностранного языка на русский.

Функции ИИ доступны при платной подписке в Google Meet. Как и в случае с Zoom, оплатить картой российского банка ее не получится.

Копайлоты

Помимо решений на основе ИИ, внедренных платформами в свои продукты, существуют и самостоятельные инструменты, совместимые с различными сервисами видеосвязи.

Otter.ai — копайлот для видеоконференций, совместимый с Zoom, Google Meet и Microsoft Teams. Он автоматически присоединяется к онлайн-встрече, расшифровывает содержание видеоконференции, создает структурированные текстовые заметки в удобном для пользователя формате (их можно самостоятельно исправить или дополнить), составляет список задач для членов команды. Сервис также предоставляет возможность совместного использования, что удобно для удаленных команд.

Otter.ai поддерживает только английский язык. Однако английскую транскрипцию можно перевести на другие языки через ии-чат сервиса.

Для хранения данных Otter использует платформу Amazon Web Services (AWS) S3.

TonyDoorAI — копайлот на основе ИИ для звонков и видеоконференций, совместимый с Zoom и Google Meet. Он помогает записывать, расшифровывать и анализировать встречи, создает заметки с временными метками и позволяет редактировать их и делиться ими с командой.

TonyDoorAI транскрибирует на 120 языках с точностью до 95%, в том числе на русском языке. Разработчики также планируют внедрить функцию автоматического перевода в реальном времени, которая будет доступна на 80+ языках.

Есть проблемы с доступом к сервису в России.

MeetGeek – приложение для обработки аудио- и видеозаписей с использованием ИИ. С его помощью можно преобразовать разговоры в текстовый формат, а также структурировать их содержание.

Приложение поддерживает более 20 языков, включая русский, и обеспечивает высокую точность распознавания речи. MeetGeek работает с Zoom, Microsoft Teams и Google Meet.

MeetGeek размещает свои сервисы и данные на облачной платформе Amazon AWS.

tl;dv — ИИ-инструмент на базе GPT. Совместим с Google Meet и Zoom. Он автоматически записывает звонки, транскрибирует речь на 20+ языках (поддерживает русский) и помечает имя говорящего, генерирует заметки на основе Chat-GPT и GPT-4. Также есть функция установки временных меток и выделения важных моментов разговора. Пользователи tl;dv могут осуществлять поиск необходимой информации, которая была произнесена во время встречи, по ключевым словам в библиотеке звонков.

tl; dv размещает свое программное обеспечение на мощностях Google Cloud Platform и Amazon Web Services (AWS). База данных расположена в виртуальном частном облаке (VPC) Google.

ИИ-инструменты от российских разработчиков

SaluteJazz — российская платформа для видеосвязи от Сбера. Что касается функций на основе ИИ, платформа позволяет менять фон видео и улучшать внешность, также есть функция шумоподавления. Пользователям платной версии доступны дополнительные функции: расшифровка видеовстречи, саммари встречи и заметки, проведение встречи в 3D-пространстве в виртуальной реальности.

Данные пользователей хранятся в России на платформах ООО «Облачные технологии».

Платформа работает вполне неплохо, однако пользователи иногда жалуются на нестабильность приложения (помехи со звуком и видео, пользователей “выбрасывает” из приложения).

МТС Линк — российская экосистема сервисов для бизнес-коммуникаций. В нее входят сервисы для видеосвязи Линк Встречи и Линк Вебинары. Помимо стандартных функций, они предоставляют расшифровку встречи, а также в начале 2024 года была анонсирована функция саммари от ИИ.

Есть on-premise решение, которое позволяет установить платформу на сервер компании.

Труконф — бесплатный мессенджер с видеозвонками для корпоративных коммуникаций. В него также интегрирован ИИ. Пользователям доступно интеллектуальное шумоподавление, размытие и замена фона, улучшение качества видео, в том числе автофокус на лице собеседника. Также есть функция транскрибации видеовстречи.

ВКС-платформу TrueConf Server Free можно установить внутри корпоративной сети компании.

Таймлист AI — ИИ-инструмент для расшифровки аудио и видео. Это не совсем копайлот для видеоконференций, однако этот инструмент может использоваться для более удобной работы в формате видеовстреч. Таймлист AI транскрибирует записи на русском языке, распознавая англицизмы и расставляя знаки препинания, составляет заметки, предоставляет саммари встречи, помечая говорящего.

Доступна On-premis установка на сервера компании.

Заключение

Функции на основе искусственного интеллекта в ВКС открывают множество возможностей для эффективной коммуникации и сотрудничества в современном мире. При выборе подходящего сервиса важно учитывать ваши конкретные потребности и требования.

При сравнении различных решений обращайте внимание на поддерживаемые языки, возможность размещения на собственных серверах, доступные ИИ-функции и ценовые планы (как платные, так и бесплатные версии). Эти факторы помогут вам найти сервис, максимально соответствующий вашим задачам и бюджету.

Стоит также учитывать, что не все сервисы видеосвязи на основе ИИ можно оплачивать из России в текущих условиях. Некоторые платформы могут быть недоступны или ограничены для российских пользователей. При выборе решения убедитесь, что вы можете беспрепятственно оформить подписку и использовать сервис.

Подробнее о крутых инструментах и новостях из мира ИИ в Telegram-канале Mr. Metapreneur

22
7 комментариев

у Труконфа лучший шумодав в мире

1

загуглите видос с трактором

1

пускай тут ИИ покомментирует чтоб два раза не вставать )

Отличная статья, Александр! Очень полезный обзор сервисов для видеоконференций, поддерживающих русский язык.

Хочу поделиться своим опытом использования сервиса транскрибации "Писец". Этот инструмент позволяет быстро и качественно расшифровывать любые медиафайлы, разбивая их на спикеров. Это особенно удобно для бизнес-профессионалов, которым важно сохранять точность и структуру разговора.

На моем опыте, "Писец" значительно ускоряет процесс создания протоколов совещаний и позволяет сосредоточиться на важных задачах. Рекомендую ознакомиться с сервисом по ссылке: https://pisec.app/.

Продолжайте радовать нас полезными материалами!

Спасибо за статью. Я бы добавил ещё одно решение в список отечественных разработчиков, follow-up.

Очень качественная обработка конференций. Прям советую присмотреться.

ещё fireflies - топ для расшифровки

ещё fireflies - топ для расшифровки