Как TikTok использует нейросети
TikTok - это экосистема нейросетей. Они ранжируют ленту, понимают контент (видео/аудио/текст), помогают модерации, обеспечивают маркировку AIGC и дают создателям генеративные инструменты.
Что именно учитывает рекомендация «For You»
Официально TikTok описывает три группы сигналов:
а) взаимодействия пользователя (просмотры/досмотры, лайки, шеринг, комменты),
б) информация о контенте (подписи, звуки, хэштеги),
в) настройки устройства/аккаунта (язык, страна, тип девайса - с меньшим весом).
Сильные сигналы (например, полный досмотр длинного ролика) перевешивают слабые. При этом число подписчиков и прошлые вирусы не являются прямыми факторами ранжирования. Система также разбавляет ленту и избегает дубликатов и двух видео подряд от одного автора.
Взаимодействия пользователя обычно имеют наибольший вес, а рекомендации есть не только в FYP, но и в Following/Friends/LIVE, поиске и даже в рекомендуемых комментариях.
Архитектура рекомендаций и онлайн-обучение
Тут у нас задействована промышленная система Monolith: онлайн-обучение с беспулевыми (collisionless) эмбеддинг-таблицами, потоковым формированием примеров (Kafka/Flink), и частой синхронизацией параметров до уровня минут - это даёт выигрыш по AUC против чисто батч-тренинга. Для коротких видео это критично: модель быстро подхватывает свежие сигналы.
На практике это означает привычный для индустрии многостадийный пайплайн: быстрый отбор кандидатов (retrieval) → более «тяжёлый» переранжирующий DNN с мультицельевой оптимизацией (досмотр, вовлечённость и т.д.). Конкретные детали у TikTok не раскрываются, но такой дизайн широко используется в рекомендациях.
Как платформа понимает видео, звук и текст
TikTok перечисляет стек технологий модерации и аналитики: компьютерное зрение (объекты/символы), аудио-классификация, NLP/LLM для контекста текста и мультимодальные модели для извлечения «утверждений» из видео. Плюс системы сходства и поведенческие детекторы (бот-активность, накрутка). Эти модели срабатывают до публикации - контент сначала проверяет автоматика и при явных нарушениях удаляет автоматически либо отправляет на ручную проверку.
Отдельно в продукте есть автосубтитры - ASR добавляет подписи к видео, что одновременно повышает доступность и даёт моделям текстовые признаки.
Модерация: доля автоматизации и метрики
По данным компании, в 2024-м >80% удалений приходилось на автоматизацию; параллельно работает большая команда T&S. В отчётах по DSA за H1’25 TikTok указывает десятки миллионов удалённых материалов в ЕС и высокую точность автоматизированных технологий (порядка 99%) при малой доле ошибок. Это подтверждает, что значительная часть контента проходит именно через ML-ворота.
Генеративные возможности для создателей и брендов
- Effect House: AI-редактор генерирует ассеты и помогает собирать AR-эффекты быстрее.
- Symphony: креативный AI-набор для маркетинга - от ассистента по сценариям до цифровых аватаров и автоперевода/дубляжа.
- AI Alive (Stories): превращение фото в короткие анимированные клипы прямо в приложении с обязательной маркировкой как AI-контента и встраиванием C2PA-метаданных.
6) Маркировка AI-контента и C2PA
TikTok автоматически помечает AIGC, загруженный с некоторых сторонних платформ, читая Content Credentials (C2PA). Платформа - первый крупный видеосервис, который внедрил эту технологию; далее те же метаданные TikTok прикрепляет и к собственным выгрузкам, чтобы сохранялась прослеживаемость вне приложения. Требование ручной маркировки реалистичных дипфейков для авторов также действует.
Так сколько же они используют нейросетей? Точной цифры нет, но в продакшене у TikTok работают десятки моделей. Реалистичный порядок - 40–110 нейросетей, а с учётом языковых/региональных версий и A/B-веток суммарно получается сотни.