10 месяцев с подкастом на искусственном интеллекте: итоги и впечатления

Привет, друзья! Не верится, что уже прошло 10 месяцев с момента запуска моего подкаста, который создается с помощью искусственного интеллекта и нейросетей. За это время мы успели выпустить 90 эпизодов, используя различные инструменты текст-ту-спич и реал-войс-клонинг для озвучки ведущих. Сегодня я хотел бы подвести итоги этого увлекательного путешествия и поделиться с вами своими размышлениями.

Первые шаги и эксперименты

С момента запуска подкаста я перепробовал множество различных нейросетей, как платных, так и бесплатных, и так называемых больших языковых моделей. Каждые 10-20 новых выпусков были очередной итерацией, результатом экспериментов и техники проб и ошибок. Недавно, 30 октября, подкаст получил обновление — это уже третья или даже четвертая его итерация.

Спасибо вам, слушатели!

В первую очередь хочу выразить благодарность всем нашим слушателям. Ваше терпение и интерес к такому формату вдохновляют меня продолжать и совершенствоваться. Я знаю, что среди вас были и скептики, но то, что вы продолжаете слушать, показывает — мы на правильном пути.

Сам себе критик

Как программист и перфекционист, я, конечно, выступаю своим самым жестким критиком. Этот проект стал для меня возможностью глубже познакомиться с миром искусственного интеллекта и проверить его возможности. Поиск ответа на вопрос "может ли ИИ заменить людей?" был очень увлекательным. Подкаст оказался отличной базой для этих исследований.

Где нас слушают

Хотя я не тщательно отслеживаю статистику, знаю, что у нас есть слушатели на различных платформах, включая Telegram, Apple Podcasts, YouTube, ВКонтакте и Яндекс.Музыку. Моя цель — сделать подкаст доступным на всех популярных площадках, чтобы каждый мог выбрать удобный способ прослушивания.

Подкапотное обновление: как устроен мой подкаст на самодельном движке

Расскажу о том, как изменился мой подкаст и какие технологии стоят за его созданием. Если ранее я использовал готовые решения, то теперь подкаст полностью создается с помощью моего собственного движка, написанного на Python. Это позволяет мне контролировать весь процесс от начала до конца. Давайте разберемся, как это работает.

Новая основа: самодельный движок

Итак, основой моего подкаста теперь служит самодельный движок. Вместо готовых решений я пишу и настраиваю все сам, используя Python. Этот подход дает мне полную гибкость в управлении всем процессом.

Whisper и работа с данными

Для обработки данных я использую Whisper, который развернут у меня локально. Whisper помогает мне эффективно справляться с задачей обработки аудио, не прибегая к сторонним платным сервисам.

В начале года я писал статью о том, как я использовал Reddit для создания датасета. Однако, со временем я пришел к выводу, что работа с YouTube стала более удобной и актуальной. Крупные каналы, посвященные искусственному интеллекту, предоставляют более структурированную и актуальную информацию.

Изменение подхода: от Reddit к YouTube

К началу года мой основной интерес был сосредоточен на Reddit, этой "золотой шахте" для сбора больших данных. Однако информация с Reddit требует тщательной проверки и анализа, что требует много времени.

Теперь я сосредоточен на YouTube. Мониторю около ста каналов, которые привлекают мое внимание и соответствуют моим интересам в области искусственного интеллекта и не только. Это оптимизирует мой процесс, избавляя от необходимости более тщательной фильтрации.

Культура потребления контента

Для меня YouTube каналы стали отличным источником контента. Я доверяю определённым авторам и мониторю их деятельность, удаляя тех, кто перестает быть интересным или полезным. Этот процесс напоминает естественный отбор, ориентированный лишь на качество и актуальность.

Локальные решения: экономия и качество

Я стараюсь минимизировать использование сторонних платных сервисов, предпочитая локальные решения. Это помогает мне экономить ресурсы и поддерживать контроль над процессом. Подробно о моем подходе можно узнать из видео, которое я выкладывал на YouTube. Хоть оно уже немного устарело, там есть полезная информация о предыдущих этапах развития подкаста.

От Whisper к языковым моделям

На первом этапе я прогоняю загруженные ролики через Whisper для создания первоначального датасета. Это позволяет мне извлечь текстовую информацию, которую затем можно обработать различными инструментами. До 90-го выпуска я пользовался различными открытыми большими языковыми моделями как платными так и бесплатными. Однако с недавнего времени я изменил подход: теперь начальная обработка выполняется одной из открытых языковых моделей, а затем подключается GPT-4O mini от OpenAI для перевода текстов с английского на русский.

Трансформация текста в речь

Проработка TTS (text-to-speech) движков привела меня к использованию Edge TTS, которого можно найти на GitHub. Этот инструмент стал моим выбором после Coqui XTTS-v2. Подкастовый движок сейчас поддерживает интеграцию с 11 Labs, Google Cloud Voice и другими сервисами, но мой выбор пал на решение с минимальными затратами Edge TTS.

Real Voice Cloning и создание подкастовой речи

Для конечной части процесса я использую Real Voice Cloning (RVC-Project), чтобы создать более персонализированную речь. Мои модели обучены на двух голосах: моем собственном и моей жены. Это позволяет добавить индивидуальности к голосам ведущих — Думфэйс и Шахерезада.

Кроме того, вот моя статья о том, как это можно реализовать лично:

Проблема с русскоязычными моделями

Существует один значительный вызов: отсутствие качественных русскоязычных моделей, которые могли бы конкурировать с английскими аналогами. 11 Labs предлагает удивительное качество речи, но их услуги стоят около ~$200 в месяц по моим расчетам для моего подкаста 12 выпусков, каждый более 1 часа, что для меня является неприемлемым.

Есть F5-TTS сказочный TTS, подделывающий беглую и правдивую речь с помощью сопоставления потоков:

И хотя F5 TTS обещает многое, пока что ее поддержка живой русской речи отсутствует. Я жду момента, когда кто-то создаст доступную модель для русского языка с живым звучанием.

Что дальше?

В будущем я надеюсь на доступность бесплатных или малозатратных решений для создания подкастов с живыми русскими голосами. Это станет огромным шагом вперед и придаст подкасту качество, которое будет сложно отличить от живого общения. Если вы знаете о таких разработки или работаете над чем-то подобным, дайте знать!

Вы можете послушать подкаст лично в одном из ваших любимых мест:

Яндекс Музыка: https://music.yandex.ru/album/28798077

Что еще? Небольшой бонус!

В данный момент я посвящаю все свое время разработке своих ИИ-ботов в Telegram.

В условиях множества блокировок доступ к современным технологиям и информации становится все сложнее, особенно для обычных пользователей, не связанных с IT. Далее в этой статье я расскажу о своей работе над созданием Telegram ботов с искусственным интеллектом, чтобы помочь обойти эти ограничения и дать людям доступ к передовым возможностям.

Блокировки и их влияние

К сожалению, в последние годы блокировки становятся все более серьезной проблемой как внутри Российской Федерации, так и в отношениях с зарубежными партнерами. Это ограничивает доступ простых пользователей к информации и новейшим достижениям в области технологий. Особенно печально осознавать, что многие люди, включая ваших близких, возможно, даже не знают о существовании таких мощных инструментов, как ChatGPT.

Для нормального развития общества доступ к информации крайне важен. Правильное информирование граждан способствует экономическому росту и благосостоянию каждой страны. Однако нынешние ограничения значительно препятствуют этому процессу, создавая угрозу технологического отставания.

Telegram боты на базе ИИ

Для решения этой проблемы я создал Telegram бота, который предоставляет доступ к самым современным инструментам искусственного интеллекта. Особое внимание уделено нейросетям, таким как:

- OpenAI и GPT-4o: последние достижения в области генеративных моделей текста.

- Генерация изображений: работа с моделями DALL-E 3 и Flux, которые предлагают уникальные возможности в создании визуального контента.

Инновации в области генерации изображений

Модель Flux, разработанная бывшими сотрудниками Stability AI, которые ранее работали над известной Stable Diffusion, предлагает новые возможности для генерации изображений. Эта команда создала новую компанию Black Forest, и их новая модель уже показывает отличные результаты. Stable Diffusion 3.5, также недавно вышедшая, добавляет еще больше возможностей пользователям, но даже она не потеснила Flux!

Возможности Telegram ИИ бота

ChatGPT d00m4ace bot: https://t.me/d00m4ace_a3f9b7_bot

Мой Telegram ИИ бот позволяет работать как с текстовыми, так и с графическими данными. Благодаря поддержке контекстного окна в 128к токенов, пользователи могут отправлять большие текстовые файлы и работать с ними в интерактивном режиме. Это открывает новые горизонты для использования ИИ, будь то для изучения, творчества или работы.

Практическое применение Telegram ИИ бота:

  • Мозговой штурм и анализ
  • Критическая оценка идей и проектов
  • Получение быстрой обратной связи
  • Анализ текстов и их генерация по запросам
  • Работа с контентом
  • Создание маркетинговых материалов
  • Помощь в написании текстов для продаж
  • Генерация контента для соцсетей
  • Работа с данными Бот поддерживает обработку текстовых файлов до 200 КБ, что позволяет работать с (команда /text):
  • Описанием рабочих процессов
  • Техническими заданиями
  • Игровым дизайном (квесты, механики)
  • Документацией
  • Техническая поддержка
  • Помощь в написании кода (Python и другие языки)
  • Работа с базами данных - составление сложных SQL запросов и тп.
  • Анализ технической документации
  • Анализ визуального контента, скриншоты и картинки (команда /scan):
  • Разбор скриншотов презентаций
  • Анализ изображений схем и диаграмм
  • Оценка изображений интерфейсов
  • Конвертация изображений в текст (команды /scantxt, /scanmd)

Важные технические особенности:

  • Контекстное окно современных моделей:
  • Google AI: 2 млн токеновAnthropic: 200 тыс. токеновOpenAI: 128 тыс. токенов
  • Для OpenAI GPT-4o это примерно равно 50 страницам обычного текста

Практические советы:

  • Создавайте тематические файлы с данными вашей области
  • Используйте бота для быстрой обратной связи
  • Экспериментируйте с анализом визуального контента
  • Регулярно лично практикуйтесь в работе с ИИ для повышения эффективности

Помните, что технологии ИИ постоянно развиваются, и важно регулярно обновлять свои навыки работы с ними. Бот предоставляет отличную возможность для практики и совершенствования в использовании искусственного интеллекта в повседневной работе и он доступен для оплаты из РФ!

Искусственный интеллект: перестаньте смотреть, начните делать!

В наше время искусственный интеллект (ИИ) обещает множество возможностей как в профессиональной, так и в личной жизни. Однако, как часто бывает с новыми технологиями, многие из нас просто читают и слушают о них, но никогда не пробуют на практике. Настало время изменить это!

Путь от теории к практике

Процесс изучения чего-либо нового требует не только пассивного восприятия информации, но и активного участия. Без практического опыта ИИ может остаться для вас таинственной магией, в то время как ваши коллеги и конкуренты используют его для достижения новых высот.

Конкуренция на рынке труда

Рынок труда сегодня насыщен и конкурентен. Те, кто научились эффективно использовать ИИ, получают неоспоримое преимущество. Этот "буст" может существенно повысить вашу ценность как специалиста и обеспечить успех в карьере.

Попробуйте мой Telegram бот с ИИ

Для тех, кто готов сделать первый шаг, я предлагаю воспользоваться моим Telegram ботом с искусственным интеллектом. Сейчас количество учетных записей, которые могут им пользоваться, ограничено, поскольку он работает на реальном оборудовании, которое я разворачиваю самостоятельно. Именно поэтому я пока не занимаюсь его активным продвижением.

ChatGPT d00m4ace bot: https://t.me/d00m4ace_a3f9b7_bot

Вы можете попробовать бота бесплатно, прежде чем решите купить дополнительные ИИ кредиты или нет. Минимальный платеж составляет 50 рублей за 5 ИИ кредитов. Кроме того в боте есть выбор из нескольких ИИ, создающих картинки! Например, одна ИИ модели flux/schnell обойдется вам не более чем в 4 рубля за одну картинку!

Локальное решение для компании и частных лиц

Моя цель — создать возможность разворачивания Telegram бота на локальных устройствах, чтобы каждый мог настраивать его под свои нужды. Вы сможете интегрировать его с вашими языковыми моделями, запущенными на ваших компьютерах, или использовать API от OpenAI, Google AI и Anthropic. Это решение будет доступно на условиях одноразовой оплаты, не требующей подписки. Более подробная информация о локальных решениях будет доступна в моем Telegram-канале блоге: https://t.me/d00m4ace_blog

Заключение

Не упустите возможность стать частью современного технологического мира. Попробуйте ИИ на практике и почувствуйте преимущества, которые он может принести в вашу жизнь и карьеру. Контактируйте с технологиями, экспериментируйте и растите разом с ними. Спасибо за внимание и до новых встреч!

11
Начать дискуссию