Как Toutiao взорвал китайский интернет и породил TikTok. Разбираю первый сервис ByteDance

TikTok знают все. ByteDance - тоже, ведь эта компания сделала TikTok. Но мало кто знает, что первый выстреливший продукт ByteDance - отнюдь не приложение с вирусными клипами, а нейроагрегатор новостей Toutiao. Именно в недрах Toutiao возник TikTok и его знаменитый алгоритм.

Как только закон о запрете Тиктока в США вступил в силу, сразу начался цирк с конями. Сначала глава ByteDance выступил с обращением, где призвал американцев “встать на защиту свободы слова”, а еще заявил, что “компания не смирится и будет бороться”. Потом СМИ писали, что китайцы хотят продать Тикток американцам без алгоритма (ага, больно он кому-то нужен без алгоритма...). А совсем недавно технологические медиа начали пробрасывать версию, что ByteDance разработает отдельный алгоритм для ускользающей из рук ByteDance (и КПК) американской версии Тиктока. Видимо, чтобы можно было скинуть отжатый актив без особенных мук китайской совести.

Рискну предположить, что стороны будут еще долго бодаться на счет алгоритма. Неудивительно, ведь рекомендательный движок можно смело назвать главным бриллиантом китайского приложения. Эксперты зачастую называют алгоритм Тиктока настоящим произведением искусства, а техноэнтузиасты регулярно пытаются разобраться в его внутреннем мире.

Многие в курсе, что Тикток - это брат-близнец китайского сервиса Douyin (прямо-таки однояйцевый). В 2016 года хитрые китайцы запустили у себя Douyin, а потом “клонировали” его для западной аудитории. Еще чуть позже ByteDance купил платформу musical.ly, объединил её с Тиктоком, влил мегатонны юаней в маркетинг, и вот мы здесь.

Кстати, ставьте лайк, если вас тоже до чёртиков бесила реклама Musical.ly в 2018 году. Репост, если попались на неё и скачали приложение.

Раздражала она не меньше Азино три топора и Джойказино. Кстати, вот эти ребята на картинке (это актеры из основной рекламы Musical.ly в РФ) так много мелькали, что даже <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fmemepedia.ru%2Fmemy-pro-reklamu-musically%2F&postId=1212354" rel="nofollow noreferrer noopener" target="_blank">стали звездами мелкого пошиба</a>.
Раздражала она не меньше Азино три топора и Джойказино. Кстати, вот эти ребята на картинке (это актеры из основной рекламы Musical.ly в РФ) так много мелькали, что даже стали звездами мелкого пошиба.

Из этой истории хочется сделать вывод, что Тикток просто взял алгоритм у Douyin. И это верно. Однако, у Douyin он возник не из космического китайского вакуума.

В России мало кто знает, что у ByteDance есть еще один сервис, самый первый - новостная платформа Toutiao. И очень зря, потому что это крайне интересная штука. Именно она является мамой Douyin и бабушкой Тиктока (ну или папой и дедушкой, не суть).

Итак, по порядку:

"Человек-рекомендация", или краткая история одного из главных инноваторов Китая

Год назад я делал большую статью про Ван Сина - китайского предпринимателя, скопировавшего целых три американские компании. Последняя из трех - экосистема Meituan - сделала его одним из богатейших людей Китая. Самая первая - Xiaonei (копия цукерберговской соцсети) тоже неплохо выстрелила и работает до сих пор под названием RenRen. А вот между ними была попытка скопировать Twitter.

Тот проект назывался Fanfou, и он оказался не слишком удачным. Но сегодня он нам интересен по другой причине - в нем успел поработать разработчик по имени Чжан Имин.

Чжан Имин в молодые годы. Надеюсь, что это он, с молодыми фотками китайцев всегда непросто (но вроде похож).
Чжан Имин в молодые годы. Надеюсь, что это он, с молодыми фотками китайцев всегда непросто (но вроде похож).

До Fanfou Чжан успел немного потрудиться в Microsoft, а еще раньше - в тревел-агрегаторе Kuxun (который, кстати, до сих пор неплохо держится в своей индустрии). Позже, в 2009 г., Чжан основал свой первый стартап - 99fang. Это платформа для поиска объектов недвижимости, что-то вроде нашего ЦИАНа. На нем можно была искать недвижку, фильтровать выдачу и связываться с агентами для сделок. 99fang неплохо выстрелил, и тоже прекрасно себя чувствует по сей день.

Почему я вообще рассказываю про места работы нашего героя? Потому что из них становится отчётливо видно, что Чжан Имин всю свою карьеру плотно работал с рекомендательными сервисам. Он отлично изучил эту область айти и плавал в ней не менее уверенно, чем баоцзы в соевом соусе. Так что, вполне логично, что именно на алгоритмы рекомендаций он сделает ставку в своём главном детище.

Итак, чувак круто шарил в рекомендательных алгоритмах и в целом был весьма толковым айтишным руководителем (на тот момент уже дорос до топ-уровня). Однако, все его пересечения с алгоритмами были… как бы сказать… слегка местечковыми. То недвижка, то билеты на транспорт какие-то.

Чжан Имин хотел большего. И однажды он поставил себе действительно взрослую задачу:

Запихнуть весь китайский интернет в рекомендательный движок.

С виду - китайский BuzzFeed. Но есть нюанс

В 2012 г. Чжан Имин создает Beijing ByteDance Technology Co., более известную как просто ByteDance. Однако до Тиктока еще было далеко.

Первым продуктом компании стал сервис Toutiao.

Слово “Toutiao” можно перевести на русский как “Заголовки”. Китайцы вообще очень щепетильно подходят к неймингу, и этот случай - не исключение. В нем вся суть. В 2010-х в Китае уже был довольно развитый интернет-сектор. А значит среднестатистический китаец уже тогда легко мог получить уйму самого разного контента (а текста - так вообще вагон и маленькую тележку). Следовательно, диапазон внимания становился более узким, развивалась контентная слепота.

В такой ситуации формулировки в заголовках выходят во главу угла. Человек смотрит на заголовок и по нему принимает решение - открывать ему статью, пост или видео, или серфить по сети дальше. Весьма несложный процесс, не правда ли? Почти рутинный.

Вот и Чжан Имин так подумал. Он решил, что людям в этом аспекте можно здорово помочь. Для этого Toutiao разработал алгоритм, умеющий:

  • Анализировать заголовки. Для этого используется комбинация из обработки текстов на естественном языке (Natural Language Processing, NLP) и машинного зрения.
  • Агрегировать контент. Если один и тот же инфоповод мелькает в разных закоулках китайнета, то сервис выбирает самые важные, вирусные и просто интересные части и собирает из них единую сущность.
  • Профилировать пользователя. Тут понятно - учет предыдущих действий пользователя, анализ его предпочтений и взаимодействий и многое другое. Проще говоря - понять, что конкретно зацепит внимание 40-летнего инженера Ли или 20-летнюю студентку Сянь (пасхалочка detected).

В технические дебри залезать не буду, там много всего используется. В частности, глубокое машинное обучение, свёрточные нейронные сети (convolutional neural network), коллаборативная фильтрация и много других традиционных (и не очень) методик, применяемых любым адекватным рекомендательным движком.

Интерфейс Toutiao - 2017 (слева) vs 2022 (справа). Не зря все-таки Чжан Имин работал в китайском аналоге Твиттера.
Интерфейс Toutiao - 2017 (слева) vs 2022 (справа). Не зря все-таки Чжан Имин работал в китайском аналоге Твиттера.

Лучше отмечу три продуктово-технических фичи, благодаря которым Toutiao так полюбился миллионам китайцев:

Фича первая. Toutiao не просто агрегирует контент из китайской сети, но и умеет его менять. Например, сервис может чуть подшлифовать формулировку заголовка, чтобы сделать его более цепляющим, вирусным и вкусным.

Фича вторая. Она связана с первой. Раз Toutiao умеет хорошо докручить агрегированный контент до товарного вида, то увеличивается кликабельность. А чем больше кликов делают пользователи (как один конкретный пользователь, так и все в совокупности), тем точнее становятся дальнейшие рекомендации. Вообще, так умеют делать большинство нормальных алгоритмических лент (например, тот же экс-Твиттер или запрещенные в РФ соцсети Цукерберга), но в те годы действительно хорошо владели этим навыком не только лишь все. Taotiao владел им хорошо, очень хорошо.

Наконец, фича третья. Сервис научился неплохо отстреливать фейковые новости и мусорные инфоповоды. Зачастую он делал это гораздо лучше первоисточника, потому что у него было unfair advantage в виде мощного алгоритмического нейрофильтра. Так что, для китайцев Toutiao стал дополнительным фильтром мозга от всякого мусора (ох, если бы они только знали, какой другой сервис в 2016 г. выкатит ByteDance…).

В последнем пункте еще можно предположить (не настаиваю), что алгоритм Toutiao умел вычищать не только явные фейк-ньюс, но и работать с более тонкими материями. Тут сами продолжите мысль, держа в голове, что речь идет не о случайной стране, а о Китае.

В итоге Чжан Имин смог:

Взять китайский интернет, выбрать из него самое интересное, превратить это интересное в готовый цепляющий контент и выплюнуть его тем, кому он будет наиболее актуален. При этом отцепляя от состава фейки и (возможно) кое-какую лишнюю информацию.

Отличный рецепт. Для Китая начала 2010-х самое то!

На первый взгляд может показаться, что еще один ушлый китаец скопировал очередной американский сервис (на этот раз - BuzzFeed), а автор этой статьи с восхищением копается в очередной китайской подделке. Но это не так:

  • BuzzFeed начинал как платформа, подкидывающая юзеру наиболее вирусный контент на разные темы. Однако, в погоне за вирусностью BuzzFeed, во-первых, серьезно менял и адаптировал контент из третьих источников, а во-вторых, сам создавал оригинальный контент. И для этого у него была своя команда редакторов (настоящих, кожаных). Нет, понятно, что сейчас у BuzzFeed в почете нейросети, перехватившие львиную долю работы. Однако, в начале было не так.
  • А вот у Toutiao людей-редакторов отродясь не водилось. Китайский сервис осмелился поставить полный all-in на алгоритмы и машинное обучение. Напомню, на дворе был 2012 г. Только-только набирала обороты предыдущая волна искусственного интеллекта, Cэм Альтман недавно присоединился к Y Combinator, а OpenAI еще и в помине не было.

Кстати, показательно, что Toutiao иногда называют “китайским BuzzFeed с мозгами”. Заметьте, не наоборот! Возможно, эту метафору придумала какая-нибудь честолюбивая нейросетка, кто знает.

Рост, проблемы и решения

Уже в 2014 году у сервиса было 20 миллионов активных пользователей. Для Китая это не предел мечтаний, но за два года - вполне достойный результат. К 2016 г. набралось почти 80 миллионов, а в 2018 г. сервисом пользовались 200 миллионов уникальных китайцев. Вот это уже серьёзные цифры даже для Поднебесной!

Насколько я понял (лол), на <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.digipanda.co.uk%2Ftoutiao-an-emerging-social-media-platform-in-china-that-you-cant-afford-to-ignore%2F&postId=1212354" rel="nofollow noreferrer noopener" target="_blank">графике</a> показано ежедневное число активных юзеров Toutiao по годам. Да, при всём моём интересе к китайскому tech, я терпеть не могу собирать инфу о нём…
Насколько я понял (лол), на графике показано ежедневное число активных юзеров Toutiao по годам. Да, при всём моём интересе к китайскому tech, я терпеть не могу собирать инфу о нём…

Однако, у сервиса была и темная сторона - проблемы с авторским правом. Конечно, далеко не весь интернет защищен копирайтом, и Toutiao вполне хватило бы и свободного контента, чтобы разгуляться. Однако, для пущего сетевого эффекта хотелось охватывать всё.

Изначально Toutiao практически не сотрудничал с издательствами и новостными порталами. Агрегатор просто брал из интернета всё, что не приколочено намертво. За счет этого Чжан Имин довольно быстро перетянул у СМИ серьезную долю интернет-трафика и стал монетизировать её через рекламу.

С одной стороны, это вполне закономерно бесило всю китайскую медийку. Но с другой, они понимали, что воевать в открытую нельзя - в таком случае ByteDance просто испортит им конкурентную позицию и лишит трафика, отключив от своей агрегации. Проще говоря, они прозевали момент, когда Toutiao был маленький и беззубый.

Решение нашлось. Постепенно Toutiao стал заключать партнерства с новостными площадками. У одних (в основном, самых крупных) просто покупали доступ к контенту - Toutiao мог брать их контент, а взамен отчислял процент от своей рекламной выручки, либо же просто платил определенный тариф. Другие стали делать для Toutiao специальные секции. Иногда в них был другой формат, но сильно борзеть было нельзя, иначе ByteDance мог разозлиться и прекратить сотрудничество. Некоторые журналисты, авторы и небольшие издания сразу шли на Toutiao - либо полностью, либо вели на нём рубрики. Взамен получали халявные охваты (примерно как твиттерские блогеры, т.е. вполне обычная интернет-история).

Toutiao действительно плотно проник в жизнь китайцев. Один из пруфов - число ежедневных минут в приложении в сравнении с западными сервисами (на <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.ycombinator.com%2Flibrary%2F3x-the-hidden-forces-behind-china-s-content-king-toutiao&postId=1212354" rel="nofollow noreferrer noopener" target="_blank">графике</a> данные за 1 квартал 2016 года). <i>*Instagram и FB запрещены в РФ</i>
Toutiao действительно плотно проник в жизнь китайцев. Один из пруфов - число ежедневных минут в приложении в сравнении с западными сервисами (на графике данные за 1 квартал 2016 года). *Instagram и FB запрещены в РФ

Нужно сказать, что одна из главных суперсил Toutiao - оперативность подачи релевантной информации. За счет этого периодически удавалось красиво хакнуть рост.

Например, очень круто помогли большие спортивные турниры. Когда в 2014 году в Бразилии проходил футбольный чемпионат мира, Toutiao стал для китайцев лучшим способом получать самые быстрые апдейты. Когда кто-то забивал гол, то оповещение в Toutiao было тут как тут. Не удивлюсь, если китайские любители футбола узнали об унижении бразильцев от немцев на несколько минут раньше, чем весь остальной мир.

Похожий фокус провернули и на Олимпиаде в Рио в 2016 году. Тогда Toutiao запустил социальный проект - “цифрового журналиста”, пишущего короткие заметки о спортивных событиях еще за несколько минут до его окончания. Художественными изысками они не отличались, но зато били все рекорды скорости.

Получается, оба раза китайскому цифровому сервису помогли крупные турниры в Бразилии.

Так вот как, оказывается, работает БРИКС!
Так вот как, оказывается, работает БРИКС!

Toutiao (точнее весь ByteDance, но до Douyin/Тиктока Toutiao был его главным продуктом) активно привлекал инвестиции. Вложиться успели несколько китайских корпораций, включая “главный аналог Твиттера” Поднебесной под названием Sina Weibo, а также Sequoia Capital, структуры Юрия Мильнера и много кто ещё. Когда Тикток начал разрывать мир и привлекать еще более серьезные суммы, Toutiao тоже перепадало хорошее финансирование.

Как появился Тикток

В 2015 г. на Toutiao появился собственный раздел с видео. Пользователи могли загружать короткие видосы, после чего продвинутые алгоритмы платформы раскидывали их нужным зрителям.

В 2016 г. видеораздел Toutiao собирал более 1 миллиарда просмотров в день, что делало плошадку сервисом коротких видео №1 во всём Китае. Здесь важно, что именно коротких видео! В сегменте длинных были и более зубастые драконы.

В сентябре 2016 года Чжан Имин решил поменять название для видео-секции Toutiao. В итоге выбрали слово, которое на русский можно перевести примерно как “завлекать” или “соблазнять” (на просмотр видео, само собой, про онлифансы в Китае тогда речи не шло). А по-китайски это слово звучит не иначе как “Douyin”.

Уже в декабре этого же года ByteDance понял, что создал нечто колоссальное и монструозное, и отпочковал Douyin в отдельный сервис.

Как вы понимаете, всё самое лучшее для рекомендательного алгоритма нового приложения взяли у Toutiao. Еще через год ByteDance выпускает глобальную версию Douyin под названием TikTok. А дальше - история.

На данном фото уважаемый китайский IT-предприниматель Чжан Имин что-то объясняет какому-то случайному лаоваю.
На данном фото уважаемый китайский IT-предприниматель Чжан Имин что-то объясняет какому-то случайному лаоваю.

Toutiao же успешно работает до сих пор, снабжая вирусным контентом и актуальными новостями более 350 миллионов китайцев.

В завершение хотел бы отметить два момента:

Момент первый. Из моей статьи может показаться, что вот был такой китайский интернет-контент, потом пришел Чжан Имин на белом коне, агрегировал весь контент через Toutiao и умчался в закат (точнее, в Тикток). Конечно, в реальности всё было гораздо сложнее. В 2010-х в Китае была жуткая грызня за индустрии, и иногда бойня в tech-секторе выходила за всякие рамки. Погуглите, например, “Войну тысячи Групонов” или как Tencent расправлялся с конкурентами. Так что, ByteDance развивал свой продукт в условиях дичайшего соперничества.

Момент второй. Из истории видно, что китайские стартаперы создали прорывной и очень сильный ИИ-продукты во времена, когда ИИ был совсем не тем, что нынче. Хотя сейчас в ИИ-гонке вроде бы лидирует США со своими OpenAI, Microsoft, Google и Nvidia, кто знает, что там готовят сумрачные китайские гении. На эту тему крайне рекомендую почитать книгу “Сверхдержавы искусственного интеллекта” за авторством Кай Фу Ли (про конфликты китайских предпринимателей там тоже есть, кстати).

Вот теперь the end.

Если вам зашло, то подпишитесь на мой тг-канал Дизраптор. Там много подобных материалов - не только про Китай и ByteDance, а вообще. Разборы крутых компаний, инноваций, продуктов и чего только не. Каждый день туда пишу большие содержательные посты, а еще анонсирую все статьи, которые выходят регулярно. Также есть второй канал Фичизм, где я разбираю интересные и яркие фичи. Тоже заходите.

110110
20 комментариев

Многие Кай Фу Ли от этой статьи!

8
Ответить

Партия благодарить лаовай А Ли Кси, автор экономический трактат "Искусство Ху Ли"

5
Ответить

Почему при всей хайповости Тиктока я первый раз вижу статью про Таотяо на русском языке??

2
Ответить

Сам удивлен. Ну вот, исправляем)

4
Ответить

Получается, Bytedance совершил аж два преступления против человечества. Одно текстом, другое видосами.

2
Ответить

)) типа того, но в случае Toutiao - только против китайского человечества

1
Ответить

Так алгоритм какой?

1
Ответить