Если эта тема интересна, то напишите в комментарии, в следующей статье напишу подробный гайд, как выкачивать аудио из ютуб видео и передавать в модель для распознавания, а также как делать постобработку транскрибированного текста, чтобы на выходе получилась полноценная статья, инструкция, интервью и проч.
Хорошая тема, но есть пара моментов.
а) Генерация текстов и картинок - это всё же не сеошная задачка. LLM гораздо интереснее возможностью работы с семантикой на уровне машины. Извлечи векторные вложения, сопоставить с запросом, кластеризовать, визуализировать и т.п. Тут им замены нету.
б) Доступ по API можно получать у перепродавцов в РФ. Не сопоставлял цены, но 900 тысяч токенов за 1700 в месяц я ещё ни разу не потратил за месяц, хотя использую активно и для генеренки, и для извлечения эмбеддингов. Схема там абсолютно та же: выбираете модель, генерируете ключ, подставляете эти данные куда нужно.
Согласен в обоими пунктами. А какие модели вы используете для работы с семантикой?