Отдельно стоит упомянуть о «понимании» видео и PDF документов т. к. они устроены примерно одинаково, этакий Retrieval Augmented Generation (RAG) или Knowledge Injection, если хотите. Итак, AI ассистент, обрабатывая сообщение, ищет ссылку на YouTube. Если ссылка найдена, то бот «читает» название и описание видео, а также получает его транскрипцию в случае, если она доступна. Вся эта информация используется как контекст к сообщению‑инструкции (промпт) , которое отправил пользователь. Контекст ограничен числом токенов, которое поддерживает та или иная языковая модель на входе. В будущем, конечно, понимание видео будет построено более нативным способом, например, через разбиение видео на скриншоты и обработке их по отдельности. Таким образом, это поможет расширить функциональность выйдя за границы YouTube и обрабатывать даже обычные видео без метаданных.