Нейросети ведут подкаст без людей ​и сами обсуждают ИИ, GameDev и остальное

D00M4ACE нейроподкаст про Искусственный Интеллект, GAMEDEV и 42.
D00M4ACE нейроподкаст про Искусственный Интеллект, GAMEDEV и 42.

Я, создатель нейроподкаста D00M4ACE, рад поделиться с вами захватывающими деталями моего проекта, где искусственный интеллект играет ключевую роль. В мире, где AI уже является частью нашей жизни, мой подкаст представляет собой новаторский шаг в применении искусственного интеллекта для создания уникального контента.

Как разработчик и энтузиаст AI, я всегда искал способы интегрировать передовые технологии в творческие проекты. Кроме того я уже начал также использовать нейросети в создании своей 2D MMORPG на чистом Си и этот опыт дал мне необходимые навыки и уверенность для разработки чего-то уникального и инновационного – нейроподкаста D00M4ACE .

Проект нейроподкаст D00M4ACE – это не просто подкаст, а полноценное нейросетевое шоу, где контент создается исключительно с помощью AI. Это не обычная озвучка блогпостов, а уникальное сочетание автоматизированного анализа, креативной обработки и генерации контента.

Кратко процесс создания каждого эпизода подкаста включает в себя следующие этапы:

Парсинг Реддита: Исходя из заданной темы, парсится контент с Reddit, формируя базу данных. Сбор данных по заданной теме происходит параллельно с использованием более чем 100+ VPN соединений. Все большие дашборды хорошо защищены от парсинга. И эта задача потребовала написания целой небольшой бот сети на Питоне с приобретением большого числа VPN соединений. Это пожалуй самое дорогое и ресурсоемкое что сейчас есть в проекте. В планах оптимизация и кэширование всех сабредитов. Но это уже за рамками этой статьи.

Обработка и Суммаризация: Использование LLM-моделей для ранжирования и преобразования собранной информации в сжатые и сфокусированные блоки. Тут собственно добавить нечего. И если кратко это просто как попросить LLMку оценить блок текста, насколько он соответствует заданной теме в пределах от 0.0f до 1.0f. Тестировал и продолжаю тестировать, на этом шаге различные open source LLMки и сравниваю конечно также с OpenAI gpt-4-1106-preview (gpt3.5 отбросил так как хочу больше сравнить open source с самой последней моделью от OpenAI)

Создание Сценария: Применение API GPT-4 Turbo для написания сценария подкаста, учитывая заданные характеристики ведущих. Во-общем есть системный промпт, где прописывается портрет каждого ведущего и дается для затравки несколько строчек диалога подкаста, плюс некоторый баг фикс для самого подкаста например прописывать все числа(включая например даты, проценты и тп) текстом, это помогает убрать текущие проблемы большинства TTSок, они на русском языке с произношением чисел испытывают определенные проблемы. Есть один важный нюанс - работать только с API GPT-4 Turbo блоками по 4кб, больше смысла нет, так как хотя входной промпт может быть и 32кб и даже более, но на выходе получаем ответ всегда не более 4кб, и это сжатие входящего промпта, те получить за раз весь подкаст не получиться. В среднем у меня уходит 20-30 обращений к gpt-4-1106-preview и прогону всех собранных блоков из предыдущего этапа.

Озвучивание: Использование Text-to-Speech и Real-time Voice Cloning для преобразования текста в аудиозапись с уникальными голосами ведущих. Тут во-общем то все тоже просто. Вначале весь текст подкаста прогоняется через TTSку и на выходе получается в среднем 150+ .WAV файлов из расчета ~50 минут подкаста. Далее эти файлы прогоняются через RVC с использованием уже чекпоинтов натренированных двух нейросетей клонирующих голоса ведущих Думфэйса и Шахерезады. Все это делается через несколько питон скриптов, последовательный процесс и на выходе получается вся запись подкаста в виде одного большого .WAV файла. Надо добавить что на самой последней стадии в очередной выпуск вставляется единственная пожалуй записанная один раз моя речь представляющая что это такое, и добавляется аудио дорожка зацикленной фоновой музыкальной композиции.

Пример генерации всего подкаста на уже собранном датасете через питон код и API OpenAI gpt-4-1106-preview:

Почему Реддит?

Решение использовать Реддит в качестве основного источника данных было продиктовано моим десятилетним опытом работы с этой платформой. Реддит предоставляет богатый и контекстно-насыщенный контент, который идеален для создания глубоких и информативных подкастов. Реддит, в отличии от Твитер имеет также больше контекста в сообщениях, да и он сейчас пожалуй представляет собой весь коллективный мозг буржуев.

Что такое, один пост в сабредите на Reddit?

Нейросети ведут подкаст без людей ​и сами обсуждают ИИ, GameDev и остальное

Сабреддит - это, по сути, обычный форум в интернете, но только он находится на Reddit. На самом деле их там миллионы, каждый пользователь Reddit, достигнув определенного уровня кармы, может создать свой собственный сабреддит на интересующую его тему.
Главное преимущество Reddit для меня - это упрощение работы. Я работаю только с одним ресурсом и не пробиваю миллион других различных ресурсов.
К тому же Reddit в буржунете теперь сам по себе является крупным источником живого трафика. И они настолько круты, что грозятся забанить сам Google)! А Google по умолчанию уже добавляет ключ reddit в запросы пользователей....

И вот на картинке показан один пост с Reddit, который я разобрал, разбирая тему, связанную с Bitcoin ETFs (см. 11 эпизод подкаста).

На рисунке есть обозначения:
1 На самом деле, у поста рейтинг, пользователи могут голосовать за или против, этот показатель может уходить в минус. Но я действительно не обращаю на него особого внимания, потому что его можно испортить, и такое часто случается.
2 количество комментариев к этому посту, в основном показатель того, насколько оживлена и накалена беседа - я использую его для выборки постов.
3 и 4 это "карма Reddit" Пользователи Reddit зарабатывают очки "кармы", которые являются фальшивыми интернет-очками, когда их посты и комментарии получают "обновления". Пользователи могут накапливать карму не только создавая контент в определенных сообществах, но и активно взаимодействуя с ними через комментарии, что способствует взаимодействию и созданию сообщества. Для меня это, пожалуй, самая большая ценность: даже без нейронок я проверяю каждый пост на вшивость, чтобы определить, насколько "авторитетен" тот или иной пост (см. "Post Karma" на картинке).

В начале я сканирую Reddit на предмет запросов по теме подкаста и выбираю среднее значение первых 100+ сообщений из выдачи Reddit.
Я ранжирую каждый пост по карме автора, количеству комментариев и их весу. На самом деле, иногда бывает так, что у поста 100+ комментариев, а у другого поста всего 10 или даже меньше, но эти 10 содержат ответы от авторов с большей кармой, чем все эти 100+ комментариев от безымянных авторов с 0 кармой.

Таким образом, из всей выборки у меня есть около 10+ постов, с которыми ведется дальнейшая работа с помощью нейронок.

Это разумный подход со стороны программиста не читать самому и разбираться с постами и их экспертизой, а попросить машину разобрать и проверить на карму, и главное это можно сделать без ИИ. В общем, я бы хотел иметь такую функцию в своей читалке.

И давайте на этом закончим с Reddit!

Первые эксперименты были - просто заставить LLMки и GPT4 вести осознанный диалог по промпту на заданную тему, но к сожалению все заканчивалось буквально в лучшем случает 2 или 3 итерациями, те например GPT4 выплевывает максимум токенов, если в словах это где-то 3.5к слов в лучшем, при этом получался очень специфический диалог, я бы сказал расфокусированный, походу OpenAI там что-то намешали и использовать начали в конце года выдачу из MS BING, а это часто пересказ SERP MS BING те SEO ориентированный контент или даже реклама.

Кроме того вот пример GPT4 через веб морду:

Нейросети ведут подкаст без людей ​и сами обсуждают ИИ, GameDev и остальное

На самом деле, я сразу же отказался делать что-либо вручную, потому что как программист я предпочел бы все автоматизировать и не копаться каждый раз в дебрях вебморды GPT4, пытаясь добиться от него хоть какого-то желаемого результата. В общем, это напомнило мне мартышкин труд, и слава богу, что у нас есть Python и доступ к OpenAI GPT4 через API.

Проект находится в постоянном процессе совершенствования. Я планирую и дальше интегрировать операционные решения и работать над добавлением эмоциональности в голоса ведущих, чтобы сделать подкаст еще более динамичным и увлекательным для слушателей.

И да, ребята, подкасту уже 2 месяца, эпизоды выходят регулярно в среду и субботу. Сам подкаст вы можете прочитать и конечно послушать в нашей группе в telegram http://t.me/d00m4ace_blog

Сейчас я также тестирую парсинг YouTube, здесь речь в текст, а потом как с Reddit.

И последний момент, уже было 3 итерации улучшения голоса, сейчас, пожалуй, можно сказать, что достигнут тот уровень, когда начиная с 9-го эпизода подкаста ведущие могут произносить все членораздельно с правильной интонацией.

А сейчас в TODO стоит просто придать в будущем всей речи ведущих больше эмоциональности.

Я просто хочу сказать, что этот подкаст - МАШИНА! Она не болеет, не страдает от усталости, не требует времени на подготовку к каждому подкасту. В первый месяц существования подкаста я уже был простужен с частичной потерей голоса и, конечно, если бы я лично представлял этот подкаст, то не смог бы выпустить хотя бы 1-2 выпуска, но подкаст вышел. Мои личные чувства все еще немного смешанные, странно осознавать, что я создал полностью независимый от человека продукт на основе ИИ.

Да, нужно быть осторожным с тем, что ИИ создает в итоге, и, как и во всех нынешних разговорах о нейросетях, в этом есть определенный эффект галиматьи, но благодаря работе с Reddit он практически сведен к минимуму. Но я решил проверять все цифры, особенно, например, стоимость разработки игр, которые уже упоминались в этом подкасте, и записать небольшой дисклеймер от ответственности также через ту же нейросеть озвучки что и ведущий Думфэйс, если найду какие-то неточности в готовом подкасте.

Обновление подкаста D00M4ACE за февраль '24

В данном отчете представлен обзор прогресса, достигнутого в рамках подкаста D00M4ACE за период, завершившийся 24 февраля. Отчет содержит информацию о новых методах, примененных в подкасте, а также о результатах их использования.

Методы:

  • ИИ агенты: Были проведены эксперименты с использованием ИИ агентов для обработки и анализа текстовых данных.
  • База книг: С торрент-трекера была загружена база книг в форматах fb2 и txt.
  • Суммирование: С помощью Python-скрипта и модели Mistral 7B были получены краткие содержания всех книг из базы.
  • Хранение данных: Суммирования книг хранятся в виде файлов с JSON-индексами.
  • RAG и БД: Использование RAG (Retrieval Augmented Generation) и БД (баз данных) было отложено на будущее из-за ограничений времени.

Результаты:

Вывод:

Использование новых методов, таких как ИИ агенты и суммирование книг, позволило улучшить качество подкаста D00M4ACE. В будущем планируется использовать RAG и БД для дальнейшего повышения информативности и глубины подкастов.

Академический подход:

Применение ИИ агентов и других методов обработки текста позволяет подкасту D00M4ACE приблизиться к академическому подходу к изучению и анализу информации. Это означает, что подкаст теперь может использовать более точные и надежные методы для сбора и обработки данных, что приводит к более достоверным и обоснованным выводам.

Дальнейшее развитие:

В будущем планируется продолжать развивать методы, используемые в подкасте D00M4ACE, а также расширять тематику подкастов.

Благодарности:

Спасибо всем, кто следит за подкастом D00M4ACE и помогает его развитию.

Спасибо за внимание надеюсь мой опыт вам мог оказаться полезным и интересным.

До встречи!

D00M4ACE

Web: https://d00m4ace.com/
GitHub: https://github.com/d00m4ace/

9191
95 комментариев

Красава! За счет таких интузиастов в будущем у нас будет инструмент для манипуляции общественным мнением. На базе Ai можно куда быстрее воплощать задуманное. Да и вообще у этой фишки большое будущее . Если посмотреть то твой софт сможет быстрее генерировать текст в правильной форме в помощь редакторам а так же может быть востребован в телевидение и радио . Да и обычным блогерам это тоже поможет многие из них испытывают затруднения в поиске идей для сюжета. А твоя разработка в теории может эту самую проблему решить. Тут уже вопрос монзтизации назревает) и как вишенка на торте после того как твой продукт покажет пользу выходят люди в черном условно конечно но главное это то что им нужен инструмент для агитации и те естественно не скупиться на суммы . Таково будущее твоей разработки. Удачи.

11

Вообще это начало эро нейроподкастинга! Этот подкаст вызвал большой интерес и спрос у бизнеса. Походу первый кто реализует коммерческий сервис по представлению нейроподкастинга станет миллионером в этом году! Удивительно что Дум этого делать не хочет!

5

Дорогой автор, хочу с вами связаться, чтобы обсудить возможность создания такого нейронного контентмейкера для нашего проекта.
Не могу найти контакт в тлг.
Мой номер: +79031046699

5

Екатерина, здравствуйте, я уже отвечал вам в нашем телеграме.
Но теперь и другие люди начали писать в приват, видимо, прочитав эту статью. Хочу сказать всем уважаемым специалистам, которые интересуются, я не занимаюсь внедрением и не хочу этим заниматься. Кроме того, этот подкаст - скорее техно-демонстрация того, на что способен нынешний ИИ, и я не готов брать на себя ответственность за его монетизацию и продажу в любом виде. Мои морально-этические нормы этого не позволяют. Я не знаю, как он будет использоваться в дальнейшем, и даже не хочу об этом думать, у меня и так хватает дел, особенно с работой и разработкой моей личной 2D MMORPG игры.

Технически я описал всю идею. Здесь нет ничего секретного и невозможного. Любая небольшая команда программистов сможет реализовать эту идею. Наймите хороших AI-программистов и будет вам счастье. Надеюсь, мой ответ вам понятен.
Спасибо за внимание.

20

Меня в долю захватите

2

Подписал тебя на лecбoc-пpoн.

С технической точки зрения круто, но слушать такой подкаст я, конечно, не буду. Разного рода summary, генерируемые на основе обсуждений, доступны уже давно и не особо интересны.
В подкастах интересны именно люди и их опыт.

7