Работу — роботам: Doubletapp сделал бота для расшифровки текста и создания Meeting Notes

Пожалуй, в 2023-м только ленивый не рассуждал о том, какую работу можно безболезненно делегировать нейросетям. В этой статье мы рассказываем о том, как ребята из ML-отдела Doubletapp сделали бота, помогающего создать заметки с важной встречи, конференции или созвона с заказчиком. Только представьте: после пяти встреч подряд восстанавливать в памяти договоренности и планы. Удручает? Нас теперь нет, потому что бот Doubletapp Meeting Notes взял эту работу на себя: мы просто «скармливаем» запись боту, а он делает для нас качественную (!) расшифровку и митинг ноутс — краткое содержание разговора, при этом определяет, какие реплики принадлежат каждому из собеседников.

Работу — роботам: Doubletapp сделал бота для расшифровки текста и создания Meeting Notes

Сотрудники компании пользовались ботом полгода и вот появился повод протестировать его за пределами переговорок Doubeltapp. В Екатеринбурге 24 октября прошла конференция Agency Growth Day — про поиск актуальных бизнес-моделей, запуск продуктов и выход на новые рынки. Doubletapp не только разработал ее дизайн-концепцию, но и позаботился, чтобы никто ничего не пропустил: прямо во время конференции с помощью собственного бота-расшифровщика мы готовили и публиковали краткие конспекты всех выступлений.

Обрабатывали контент в реальном времени, митинг ноутс выкладывали через 10–15 мин. после ухода со сцены очередного докладчика. Тексты нашего трудолюбивого бота можно увидеть в соцсетях ивента, а еще организаторы включили их в итоговую рассылку для участников вместе с фотографиями и презентациями докладов и выложили на сайте Agency Growth Day.

Зачем нужен Doubletapp Meeting Notes

ML-отдел Doubletapp разработал бота-расшифровщика, чтобы нам самим было удобнее работать: сотрудники и клиенты Doubletapp живут по всему миру, и необходим инструмент, который переведет длинные обсуждения в короткие сводки, а мы по горячим следам зафиксируем результаты и закрепим договоренности.

Работу — роботам: Doubletapp сделал бота для расшифровки текста и создания Meeting Notes

Agency Growth Day — отличный повод, чтобы рассказать участникам о нашем боте. Сами знаете, на семичасовом мероприятии никто не сидит как приклеенный. Хочется пообщаться, поучаствовать в активностях, да отойти кофе выпить наконец. Можно потом посмотреть трансляцию (ага, все 7 часов)... А толку-то смотреть потом — вдруг прямо сейчас что-то интересное рассказывают, и это можно обсудить с докладчиком, пока все не разъехались?

Как это работает

ML-отдел Doubletapp умеет вникать в задачу клиента и решать ее точно и экономно. Например, у нас есть разработки, основанные на алгоритмах машинного обучения и компьютерного зрения:

  • Watchmen (девайс и административная панель для каршеринговых сервисов — идентификация личности водителя и контроль над его поведением);
  • Bus Factor (девайс и административная панель для использования в общественном транспорте — автоматизация контроля над поведением водителя).

Еще один проект — приложение под iOS для тренировок по практической стрельбе HitFactor Shots Analysis. Команда ML обучала нейросеть точно опознавать звуки выстрелов и портировала обученную сеть на конечное устройство.

В апреле 2023 года ML-отдел начал работу над внутренним продуктом — ботом-расшифровщиком. Готовые решения есть, но их качество работы с русской речью нас не устраивало. Плюс мы сделали разделение говорящих, в расшифровке видно, какие слова кому принадлежат — такое мало где есть. Нам нужен собственный стабильный инструмент, работу которого мы можем контролировать, а инструментарий — дорабатывать.

Команда:

Антон Рябых
Кирилл Столбов
Кирилл Воронин
Игорь Наумов

Бот задуман с большим запасом прочности: запросы обрабатываются асинхронно (с заделом на множество одновременных обращений), а технологии подобраны так, чтобы обрабатывать одновременно большие файлы — до 2 Гб (ограничение Телеграм).

Работу — роботам: Doubletapp сделал бота для расшифровки текста и создания Meeting Notes

Бот-расшифровщик работает на основе трёх нейросетей:

• Диаризация (определяем, сколько человек говорит, и детектируем реплики каждого). На этом этапе используем нейросеть, развернутую на нашем сервере.

• Транскрибация (перевод устной речи в текст). На этом этапе работает Whisper (бесплатная система распознавания речи от OpenAI) — для решения задачи в общем случае ничего сейчас лучше в мире нет, плюс ее реально дообучать для каких-то специфических кейсов. Whisper можно разворачивать у себя, можно платить за API у сервисов, где он уже развернут.

•Митинг ноутсы / краткое содержание. Используем GPT-4, тут большую роль играет промпт-инжиниринг — мы на имеющемся API подбираем такие запросы, чтобы задача решалась лучше всего.

Технологии:
Whisper, GPT-4, Pyrogram, ffmpeg, SQLAlchemy, PostgreSQL, PGAdmin, Alembic

Чтобы максимально ускорить работу, реализовали параллельную обработку больших файлов и исключили, где можно, некоторые шаги — та же диаризация при одном спикере не нужна, некоторые аудиофайлы конвертировать не нужно и т. п.

Для подключения монетизации пришлось создавать собственные решения. Поскольку в Pyrogram (библиотеке для создания Telegram-ботов) нет готовых методов для платежей, то пришлось их писать самостоятельно с тем, что предоставляет эта библиотека.

Сергей Анчутин
СЕО Doubletapp:

Текущее решение — быстрое MVP, которое мы используем внутри компании уже полгода и которое быстро адаптировали под формат конференций, чтобы запустить волну обсуждений и знакомств на мероприятии.

И в целом, если давать советы, то лучше для быстрых решений и проверки гипотез использовать максимально готовое, тратя меньше времени на кишки и больше — на суть продукта. А когда уже нужно будет улучшать качество, тогда делать дообучение и кастомные нейросети, либо, когда запросов будет много и это будет дорого.

И попробуйте бесплатно нашего бота».

Работу — роботам: Doubletapp сделал бота для расшифровки текста и создания Meeting Notes

Что в итоге

За 7 часов мероприятия мы обработали 12 выступлений длительностью от 8 до 49 минут. Среднее время на обсчет — около 15 мин., самый короткий файл обработали за 8 мин., самый длинный — за 28 мин. Вес файлов — от 14,7 Мб до 401 Мб. Сбоев 0.

Сначала хотели выпустить краткие сводки по шести докладам, а бизнес-разборы, во время которых все перебивают друг друга и говорят хором (не всегда в микрофон) решили обработать по возможности. Но бот обсчитывал все быстро и без сбоев, поэтому продолжили работу и опубликовали еще шесть сводок — по презентациям участников и по обсуждениям экспертов.

После выступления нашего СЕО и объявления в каналах конференции ботом воспользовались 47 человек, мы получили несколько предложений о сотрудничестве. Например, сейчас занимаемся доработкой бота для нужд клиента (мы добавили удобные ему форматы файлов для заливки) — к нам обратился заказчик, который занимается приложениями и сайтами для коммерческой медицины в Екатеринбурге. Компании нужен такой электронный секретарь для протоколирования заседаний — ранее использовали диктофонные записи и привлекали сотрудника-расшифровщика, а теперь могут более рационально использовать человеческие ресурсы. Дополнительным плюсом послужило и то, что файлы, которые загружает заказчик, доступны только ему — обрабатывать можно конфиденциальную информацию.

Работу — роботам: Doubletapp сделал бота для расшифровки текста и создания Meeting Notes

Работу ML-специалистов Doubletapp отметило высокое жюри конкурса Tagline Awards 2023 — кейс получил 2 серебряных и 2 бронзовых статуэтки.

Мы готовы совершенствовать продукт вместе с заинтересованным заказчиком для решения его бизнес-задач. Сейчас разрабатываем поисковый инструментарий по загруженным файлам и решения для подключения бота непосредственно к созвонам в Zoom или Google Meet, чтобы получать конспект сразу же после окончания звонка.

55
Начать дискуссию