Когда AI встречает право или почему мы не смогли запустить готовый сервис

Всем привет, на связи mrktng.bz. Мы возвращаемся с еще одной занимательной историей про ИИ.

Примерно год назад на волне всеобщего хайпа вокруг ИИ-продуктов, мы решили создать сервис, который сможет превращать любое видео в короткий пост в Telegram без участия человека. Что из этого получилось, рассказываем далее

"— Все должно быть быстро и автоматически, при этом внутри должен быть не просто краткий пересказ, но и чек-лист с шагами, — например, что нужно сделать чтобы начать бегать" — таково было ТЗ

Мы не преследовали каких-либо серьезных коммерческих целей, ключевая идея была сэкономить время на изучении огромных массивов видео-контента и валидировать наши возможности работы с этой технологией.

При этом, мы хотели чтобы решение работало исключительно примитивно — отправил ссылку в бот и через короткое время получил пост в канале.

Пример готовой публикации, созданной без участия человека
Пример готовой публикации, созданной без участия человека

Шаг 1. Делаем просто

Чтобы не усложнять, мы построили архитектуру на готовых решениях. Так, в качестве интерфейса для ссылок выступил телеграм-бот, а в качестве интерфейса для базы данных — Notion. В качестве "носителя" сгенерированных статей, сервис Telegra.ph.

После проработки получилась следующая схема сервиса:

  • Телеграм-бот принимает ссылку из Youtube и скачивает видео себе на сервер.
  • Далее из видео извлекается аудио.
  • Аудио отправляется в AI Whisper для распознавания.
  • Далее распознанный текст отправляется в GPT 3.5 и, согласно промпту трансформируется и автоматически публикуется в короткий пост в телеграм-канале.
  • Промежуточные итоги можно смотреть в отдельной табличке в Notion, там же хранилась история всех распознанных видео.
Таблица с готовыми материалами в Notion
Таблица с готовыми материалами в Notion

Шаг 2. Страдаем

Ключевая сложность была в том, чтобы добиться действительно корректного и правильного пересказа.

Со временем мы поняли что он должен быть не просто краткий, но и содержать сутевую часть беседы, опорные мысли, которые удобнее всего выделить отдельным списком.

Проект автоматически сгенерированной статьи в Notion
Проект автоматически сгенерированной статьи в Notion

Так, после нескольких недель проб и ошибок, мы получили примерно тот результат на который хотели выйти.

Пример пересказа с выделением ключевых идей<br />
Пример пересказа с выделением ключевых идей

Крупной проблемой оказалась переработка GPT большого объема текста.

Дело в том, что GPT 3.5 ограничен по количеству символов, который может принять. А двухчасовые подскасты, как несложно догадаться, содержали огромную портянку сырого распознанного текста.

Поэтому, мы потратили отдельную тучу часов, чтобы наладить алгоритм по нарезке частями текста, обработки промптом каждой из них, далее складывание текста в один, и если он снова превышал допустимый размер, цикличное повторение предыдущих шагов до достижения нужного результата.

При этом было важно, чтобы в такой автоматизированной разбивке и обработки изначального текста не терялся смысл и идеи. После нескольких итераций мы смогли достичь желаемого результата. Наш алгоритм мог успешно обрабатывать и пересказывать текст практически любого объема, что было довольно круто, потому что сервис по пересказу от Яндекса с их GPT на тот момент нам в этом уступал и на больших объемах выдавал сообщение об ограничениях и отказывался пересказывать.

Шаг 3. Кладем в стол

Сервис так и не был опубликован и остался лишь в формате mvp. Перед тем как выпустить публичный релиз мы обратились к юристам по авторскому праву.

Как мы и предполагали, даже переработанный контент не прекращает авторских прав, а значит накладывает ограничения по его использованию.

Мы не рассчитывали что проект будет коммерчески успешным, это была своеобразная песочница, хотелось понять реальность и сложность осуществления подобной задачи.

Оказалось, что ключевой вызов находится на этапе работы с промптом. Так же, за рамками нашего исследования осталась долгосрочная стабильность работы сервиса.Мы знаем, что на больших массивах gpt модели начинают отклоняться от заданных промпт-запросов, совокупно мы обработали не более 100 единиц контента и на таком небольшом объеме какие-либо однозначные выводы сделать не решились.

Заключение

Тем не менее, мы считаем, что созданное решение может быть апробировано в бизнес-задачах, например для расшифровки звонков, встреч, регламентов или образовательного контента.

В процессе работ, мы так же преисполнились идеями о более широком развитии gpt-обработчиков в более прикладных вещах, о результатах обязательно расскажем позднее.

__________

Подписывайтесь на нас в vc или телеграм, пишем о бизнесе, веб и AI-решениях

Остаемся на связи, mrktng.bz

Начать дискуссию