Как TikTok использует нейросети

TikTok - это экосистема нейросетей. Они ранжируют ленту, понимают контент (видео/аудио/текст), помогают модерации, обеспечивают маркировку AIGC и дают создателям генеративные инструменты.

Как TikTok использует нейросети

Что именно учитывает рекомендация «For You»

Официально TikTok описывает три группы сигналов:

а) взаимодействия пользователя (просмотры/досмотры, лайки, шеринг, комменты),

б) информация о контенте (подписи, звуки, хэштеги),

в) настройки устройства/аккаунта (язык, страна, тип девайса - с меньшим весом).

Сильные сигналы (например, полный досмотр длинного ролика) перевешивают слабые. При этом число подписчиков и прошлые вирусы не являются прямыми факторами ранжирования. Система также разбавляет ленту и избегает дубликатов и двух видео подряд от одного автора.

Пример статистики, который говорит о том, что предыдущие залетевшие видео - не тянут паравозом все остальные в будущем
Пример статистики, который говорит о том, что предыдущие залетевшие видео - не тянут паравозом все остальные в будущем

Взаимодействия пользователя обычно имеют наибольший вес, а рекомендации есть не только в FYP, но и в Following/Friends/LIVE, поиске и даже в рекомендуемых комментариях.

Архитектура рекомендаций и онлайн-обучение

Тут у нас задействована промышленная система Monolith: онлайн-обучение с беспулевыми (collisionless) эмбеддинг-таблицами, потоковым формированием примеров (Kafka/Flink), и частой синхронизацией параметров до уровня минут - это даёт выигрыш по AUC против чисто батч-тренинга. Для коротких видео это критично: модель быстро подхватывает свежие сигналы.

На практике это означает привычный для индустрии многостадийный пайплайн: быстрый отбор кандидатов (retrieval) → более «тяжёлый» переранжирующий DNN с мультицельевой оптимизацией (досмотр, вовлечённость и т.д.). Конкретные детали у TikTok не раскрываются, но такой дизайн широко используется в рекомендациях.

Как платформа понимает видео, звук и текст

TikTok перечисляет стек технологий модерации и аналитики: компьютерное зрение (объекты/символы), аудио-классификация, NLP/LLM для контекста текста и мультимодальные модели для извлечения «утверждений» из видео. Плюс системы сходства и поведенческие детекторы (бот-активность, накрутка). Эти модели срабатывают до публикации - контент сначала проверяет автоматика и при явных нарушениях удаляет автоматически либо отправляет на ручную проверку.

Отдельно в продукте есть автосубтитры - ASR добавляет подписи к видео, что одновременно повышает доступность и даёт моделям текстовые признаки.

Модерация: доля автоматизации и метрики

По данным компании, в 2024-м >80% удалений приходилось на автоматизацию; параллельно работает большая команда T&S. В отчётах по DSA за H1’25 TikTok указывает десятки миллионов удалённых материалов в ЕС и высокую точность автоматизированных технологий (порядка 99%) при малой доле ошибок. Это подтверждает, что значительная часть контента проходит именно через ML-ворота.

Генеративные возможности для создателей и брендов

  • Effect House: AI-редактор генерирует ассеты и помогает собирать AR-эффекты быстрее.
  • Symphony: креативный AI-набор для маркетинга - от ассистента по сценариям до цифровых аватаров и автоперевода/дубляжа.
  • AI Alive (Stories): превращение фото в короткие анимированные клипы прямо в приложении с обязательной маркировкой как AI-контента и встраиванием C2PA-метаданных.

6) Маркировка AI-контента и C2PA

TikTok автоматически помечает AIGC, загруженный с некоторых сторонних платформ, читая Content Credentials (C2PA). Платформа - первый крупный видеосервис, который внедрил эту технологию; далее те же метаданные TikTok прикрепляет и к собственным выгрузкам, чтобы сохранялась прослеживаемость вне приложения. Требование ручной маркировки реалистичных дипфейков для авторов также действует.

Так сколько же они используют нейросетей? Точной цифры нет, но в продакшене у TikTok работают десятки моделей. Реалистичный порядок - 40–110 нейросетей, а с учётом языковых/региональных версий и A/B-веток суммарно получается сотни.

Как встроить ИИ в процесс, рабочие промпты и кейсы - подписывайтесь на мой ТГ-канал

4
1 комментарий