Коротко и текстом о том, что заняло бы много часов в видеоформате. Проект https://t.me/Meeting_summarizer_bot [2 часа встречи → 1 минуту инсайтов]
Сейчас ChatGPT даже в бесплатной версии на GPT4o работает) но круто что у вас есть голосовой ввод
А что касается GPT-4o, то пока есть вот эти демо stt (надо выбрать meeting notes или lecture summarization)
https://openai.com/index/hello-gpt-4o/
Это сильно лучше вариаций whisper
Спасибо что поправили, этот пункт из оферты смутил:
У мультимодальной Gemini Pro WER 5,6% vs 7.3% у Whisper на 15 минутных аудио
https://arxiv.org/pdf/2403.05530
Причем, если протестируете, прям совсем другое качество по распознаванию собственных имен и аббревиатур. И контекст классно понимает это не 30 секунд, как у Whisper, этот подкаст в 120к токенов Gemini Pro помещается из 1кк.
А в ChatGPT все еще Whisper на распознание прикручен пока. Поэтому и процент ошибок тот же что и был.
Про 100% точность не говорил, но и у человека WER 0% не будет)
Короче будущее в stt за мультимодальными моделями у которых трилиарды параметров + контекст с 1+ часов.
На самом деле OpenAI уже победила эту проблему своим GPT-4o. У мультимодальных моделей в 1000x раз больше знаний о текстах и она понимает любые термины, которые были в интернете. Но использовать эту возможность пока могут только избранные пару компаний, доступ к API для видео/аудио не публичный еще. Вот в Gemini от Гугла уже можно попробовать.
Mymeet.ai насколько из их оферты понял, использует Google API для транскрипции (но лучше всех по качеству из доступных API транскрипции - у амазона)
В комментарий только половина влезла, но так ребята молодцы) удачи им) зачетный эпизод!
Не удержался и транскрибировал эту серию))
Саммари:
00 min
1. Удержание мотивации команды важно, особенно в условиях долгого ожидания результатов (1:13)
2. Поддержка от близких и команды важна, но на первых этапах стартапу не стоит рассчитывать на поддержку рынка (1:35, 1:42)
3. Один из стартапов за первые полгода смог привлечь 12 млн рублей грантов и 4,5 млн рублей инвестиций (1:48)
4. Спрос на инструменты для бизнеса и команд в области искусственного интеллекта увеличился из-за бума нейросетей (2:05)
5. Команда MyMeet.ai привлекла первый раунд в 3 млн рублей (3:18)
6. Разработка собственных моделей и движков важна для стартапов в области искусственного интеллекта (8:17)
7. Проблема с LLM-моделями заключается в сложностях работы с русским языком из-за различий в токенизации (9:09)
10 min
1. Модели нейросетей работают лучше на языках с большим объемом данных, таких как немецкий, испанский, китайский (10:38)
2. Для улучшения работы моделей можно использовать частичное дообучение на 200-500 примерах (12:18)
3. Для успешного проекта в области нейросетей и LLM необходима команда из NLP-специалиста, ML-инженера и дата-инженера (15:26)
4. На начальных стадиях проекта можно обойтись без специалистов, привлекая людей заинтересованных в проекте (17:26)
5. После MVP для развития проекта требуется более квалифицированная команда, средняя зарплата МЛ-специалиста составляет 300-350 тысяч рублей (18:45)
6. Важно, чтобы участники команды были заинтересованы в проекте и видели его как свое дело, возможно с долями в компании (19:26)
20 min
1. Инвестиции необходимы для выхода на прибыль (20:12).
2. Илья Байзер является кофаундером и получает долю (20:58).
3. Планируют привлечь инвесторов через акселераторы и конференции (22:48).
4. Участие в различных мероприятиях, таких как HSE Fiesta и TMO Акселератор, помогло привлечь инвесторов (23:09).
5. Product Radar помог найти партнеров и инвесторов (23:23).
6. Целевая аудитория - в первую очередь айтишники, затем социологи и другие специалисты (27:02).
7. Средний чек - 2500, количество платящих пользователей - 250 (27:18).
8. Маркетинг начали с привлечения первых платных пользователей и корпоративных тарифов (28:08).
9. Анализ метрик привлечения и воронок продаж помог увеличить эффективность маркетинга (29:13).
30 min
1. Стартап MyMeet не требует финансирования и инвесторов, потратили 70 тысяч рублей, деньги идут на маркетинг (30:10).
2. Генеральный директор стартапа MyMeet сталкивался с трудностями, работая фулл-тайм и занимаясь разработкой вечерами и выходными (30:36).
3. Необходимость многократного пересмотра образовательных видео для поиска нужной информации привела к созданию проекта Visever, который предлагает поиск внутри видео с помощью текстовых запросов и тайм-кодов с краткими резюме (37:41).
4. Visever получил гранты от фонда содействия инновациям на сумму 2 миллионов рублей (34:52).
5. Пользователи Visever благодарят за возможность быстро находить нужные цитаты в видео и использовать их в своих работах (37:53).
6. Внутри видео на Visever также представлены тайм-коды с кратким текстовым резюме, что помогает пользователям быстро оценить содержание фрагмента (38:35).
7. Многие пользователи предпочитают получать новые знания в текстовом формате, а видео используют для визуализации и подкрепления информации (39:16).
40 min
1. Важным стал момент рождения дочери, после чего возникла потребность быстро и эффективно подготовиться к поступлению в аспирантуру (40:20)
2. Недостаток возможности отфильтровать и сортировать образовательные видеоиз источников привел к идее создания сервиса для сбора видео из разных источников (41:36)
3. Важность быстрой разработки продукта и его тестирования, особенно при наличии маленьких детей (45:45)
4. Поиск команды для проекта начался с определения целевой аудитории и потребностей, что привело к нахождению специалистов в Беларуси (48:14)
5. Озвучивание своих потребностей и запросов помогло быстро найти нужных специалистов, включая крупнейших экспертов в области искусственного интеллекта (49:12)
Жду суммаризацию) Отличная статья
Я не говорил что его нет у chatgpt) я говорил что это круто))