Как The New York Times тестирует заголовки статей
Перед вами перевод статьи из блога Tom Cleveland. Он рядовой американский программист, но интересуется журналистикой. Чувак проанализировал работу The New York Times над заголовками и визуализировал данные. Мне показалось это интересным, поэтому я перевёл статью и выкладываю здесь с некоторыми сокращениями.
New York Times рассказывает своим рекламодателям, что они — это источник новостей №1 для молодых и богатых идейных лидеров. NYT рисует определенную картину мира и в некоторых кругах она становится картиной мира по умолчанию, согласны вы с ней или нет.
Я хотел узнать больше об этой картине. Так что в течение следующих нескольких недель я буду публиковать серию сообщений в NYT, опираясь на данные, взятые с их первой страницы и взятые из их официального API.
Эта статья посвящена A/B-тестированию: как NYT тестирует разные заголовки и как они меняются с течением времени.
А/B-тестирование в The New York
Ладно, сейчас идёт 2021 год — было бы шоком, если бы New York Times не использовала в заголовках A/B-тестирование.
И они открыто об этом говорят:
Но вопросы остались:
- Сколько статей проходит A / B-тестирование?
- Сколько заголовков проверяется для каждой статьи?
- Помогает?
- Насколько разные заголовки?
Методология
Я написал скрипт, который:
- Парсит домашнюю страницу NYT
- Вытаскивает все заголовки
- Связывает их с метаданными статей из официального NYT API
- Запихивает заголовки в базу данных
Скрипт запускается каждые пять минут. Я начал делать это 13 февраля 2021 года, поэтому всё, что будет дальше, основано на данных с этого времени.
Результаты
NYT действительно проводит A / B-тестирование своих заголовков. Примерно 29% статей имеют несколько заголовков, а наибольшее количество заголовков, наблюдаемых для одной статьи (на данный момент), составляет восемь.
Многие из этих изменений заголовков довольно незначительны — NYT обычно исправляет ошибки в заглавных буквах или пунктуации после публикации статьи.
И иногда кажется, что редакторы не могут определиться: следует ли писать заглавными буквами?
В других случаях NYT меняет заголовки по мере развития сюжета. Вот отличная история, рассказанная в заголовках:
Но большинство смен заголовков — это явно A / B-тесты, требующие большого количества кликов.
Вот статья о стиле правления Байдена с довольно драматичным изменением заголовка:
Единственная причина для такого рода изменений — попытка повысить вовлеченность. И это сработало! Эта статья попала в список «самых просматриваемых» через несколько часов после смены заголовков (что подтверждает мою теорию о том, что либералы любят читать о Трампе).
Но не все A / B-тесты имеют такой успех. Вот A / B-тест, который определенно провалился (возможно, придется прищуриться, чтобы увидеть крошечное синее пятно на меньшем экране):
Надеюсь, эта неудача не отпугнула чокнутого редактора, стоявшего за «Прыгающим Иосафатом!». NYT определенно может использовать больше Bugs Bunny-isms (непереводимый американский фольклор — прим. А.Березового).
Но в целом у этих A / B-тестов есть закономерность: со временем заголовки становятся все более драматичными. Возьмите эту статью о секс-скандале Куомо:
При первой смене заголовка Куомо переходит из нападения в осаду, а во второ смене он больше не пересматривает свой план, он извиняется.
И это работает: по мере изменения заголовка мы видим, что статья поднимается в рейтинге «самых просматриваемых».
В этой статье об адресе CPAC Трампа заголовки становятся еще ярче:
Трамп начинает с обращения к консерваторам и утверждения лидерства G.O.P. (Республиканская партия — прим. А.Березового), но в последнем заголовке у Трампа есть расстрельный список, и он делает предупредительный выстрел. И действительно, напыщенная риторика продвигает эту статью в список «самых просматриваемых».
Теперь последний пример: эта чрезвычайно популярная статья об интервью Опры с Меган Маркл:
Я смотрел это интервью — все два часа — и могу сказать вам, что первые два заголовка намного лучше отражают то, что произошло. Да, Меган раскрывает, что подумывала о самоубийстве, но это пятиминутный перерыв в интервью, в котором происходит гораздо больше. Например, ни в одном из этих заголовков не упоминается роль, которую расизм сыграл в бедственном положении Меган — тема, которая отнимает у экрана гораздо больше времени, чем её суицидальные мысли.
Работает ли это?
Приведенные выше статьи стали намного популярнее после некоторого A / B-тестирования — но работает ли это в целом?
Я подсчитал, что статьи NYT, прошедшие A / B-тестирование, на 80% чаще попадают в «самые популярные» списки. И, что неудивительно, больше тестирования заголовков коррелирует с большей вовлеченностью:
Предостережение: количество заголовков и вовлеченность взаимосвязаны, но кто знает, в каком направлении работает причинно-следственная связь. Мне кажется логичным, что чем больше вы тестируете заголовок, тем больше вероятность того, что ваша статья получит общий доступ / лайк / клик.
Но также возможно, что NYT тратит больше времени на настройку уже популярных статей. Хотя, как ни странно, во многих статьях, которые я просмотрел, заголовки часто меняются, прежде чем статья попадает в большинство чартов).
Итак, что я узнал?
Вау. (сарказм)
В целом, А/В тестирование имеет ограниченное применение.
Я бы предположил, что редакторы NYT ставят задачу сотрудникам представить тексты с шестью возможными заголовками, и что какая-то автоматизированная система проверяет все шесть загов в первый час. Но очевидно, что это неправда — несмотря на то, что данные показывают, что большее количество A / B-тестирования повысит вовлеченность.
Одно из возможных объяснений: 62% дохода NYT поступает от подписок, и только 27% приходится на рекламу (а доход от рекламы падает из года в год). Это означает, что просмотры не так важны, как подписки, а первая страница, заполненная кликбейтами, скорее всего, отпугнет потенциальных подписчиков.
NYT обычно более сдержан, чем BuzzFeed, но мы должны помнить, что это не нейтральный наблюдатель. Как показывают приведенные выше примеры, заголовки, прошедшие A / B-тестирование, рисуют гораздо более драматичную картину, чем реальность. Постоянные читатели New York Times в конечном итоге будут думать, что мир страшнее, чем есть на самом деле.
Что дальше
В следующем посте я рассмотрю первую страницу NYT, а именно:
- Как долго статьи остаются на первой странице
- Какие статьи проводят больше всего (и меньше всего) времени на первой странице
- Какой контент наиболее вероятно (и наименее вероятно) появится на первой странице
- Как время выхода на первую страницу соотносится с общей вовлеченностью
И другие забавные штуки.
Напишите в комментариях, если вам интересно!
Эту статью для вас перевёл
Вы наткнулись на этот материал случайно. Чтобы гарантированно получать полезную информацию о медиа, подпишитесь на мой телеграм-канал.
Интересное исследование, кайфанул от погружения в тему, особенно про связку количества тестов со статьями дохода, есть над чем поразмышлять после прочтения, накинуть свои мысли.
Было бы здорово в конце собирать основные цифры в небольшую таблицу, чтобы по тексту не искать
Жду следующей статьи, спасибо!
Ну камон, просто почитайте про АБ тесты и проверку гипотез в продуктовой разработке, у любой заметной компании есть такое десятки лет
Вот это секретики, а то я подумал что это инновация NYT, спасибо что просветили. А что за «гипотеза» и как найти «заметную» компанию, есть ссылки? хочу просветиться, говорят, после, можно отвечать на комменты в vc даже не понимания о чем они
Конечно
Сходу АБ тесты в Авито, Яндексе, Plarium
Если дальше листать, можно уже под себя найти компанию позаметнее
Простите, что потревожили вас своей статьёй.
Камон, речь о медиа, а не о интернет-сервисе.
👍
Больше похоже на многорукого бандита
Upd: а впрочем, они сами описывают процесс в своём блоге
https://open.nytimes.com/how-the-new-york-times-is-experimenting-with-recommendation-algorithms-562f78624d26
Интересно, что у них блог на Medium при том, что у самих огромная медиа-платформа.
Раскидывают свои сети везде, где могут))
Наверное, есть часть аудитории, которая входит через Медиум. На западе Медиум гораздо популярнее, чем у нас.
Это просто как на хабре корпоративный технический блог вести, там своя атмосфера и аудитория
Еще пример:
https://netflixtechblog.medium.com/
Похоже на то.
кайфец, спасибо
WP плагинов никто не знает под такие тесты?
Тест получится не совсем корректный. Дело в том, что перед A/B тестом надо проводить A/A тест, чего в плагинах я не видел.
Иван, А/А это как?
A/A похож на A/B. Только вместо налива читателей на два разных заголовка, в нашем случае, мы наливаем 2 группы на 2 одинаковых. В A/A мы проверяем сам принцип деления пополам. Насколько он корректен? Половинки аудитории ведут себя абсолютно одинаково? При прочих равных.
Если «да», то цифры последующего или параллельного A/B тестирования получают ненулевую ценность. Если «нет» — цифры хорошо будут смотреться на помойке.
Это может казаться странным, но во множестве случаев аудитория или делится пополам по негодному принципу или просто её статистически мало, она не особо репрезентативна. Допустим случайным образом в группу A налились случайные социалисты, условно, а в группу B коммунисты. Среди читателей NYT и те, и те. Но набились неровно, просто по рандомайзеру, а-ля, так вышло. И кликают эти 3 человека по-разному. О чём это говорит? Ни о чём.
Супер, спасибо!
тоже было бы интересно узнать
Нашёл несколько, вот вроде норм https://thrivethemes.com/optimize/
Супер, спасибо
Круто, спасибо большое! Очень интересное исследование.
Я так понял, что заголовки меняются уже у выстреливших статей?
Как думаете, А/Б заголовки пишутся полностью вручную или агрегируются сработавшие ключи и с них составляются заголовки? Может другой способ автоматизации?
У меня ощущение, что заги генерятся вручную, редакторами. И меняет их выпускающий редактор, по мере динамики кликов.
Алексей, а вы сами в канал пишете?
В свой — да.
В чем разница заголовков в примере с "Don't Give in to Terror"?
In/in
не могут определиться — с большой или с маленькой буквы писать некоторые слова
Спасибо за весьма интересный материал. У них на сайте в списке новостей дискрипшин не отображается, только один тайтл?
В основном — заг и лид. Есть новостные плашки только с загами.
Где-то в середине ошибка в переводе "адрес CPAC Трампа". Там же не про адрес речь.
Вообще мощный инструмент, и не только для этих ваших A/B тестов.
Обратите внимание как теперь выглядит заголовок про интервью Меган и Гарри:
‘I Just Didn’t Want to Be Alive Anymore’: Meghan Says Life as Royal Made Her SuicidalСтатья редактировалась несколько раз, в течение двух дней после публикации.
"Ну, поманипулировали немного, и хватит пока".
Кстати, подскажите, а есть ли англоговорящий аналог VC?
Medium.com
Медиум совершенно не похож на vc
Из этих примеров на A/B-тестирование заголовка похож только последний график. Только тут мы видим, что явно у статьи есть два заголовка одновременно и одним показывается одно, другим - другое. В остальных случаях - обычная редакторская работа. Люди видят по реакции читателей, которые прочитали статью (глубина просмотра, время на странице), что она приносит больше дохода и пытаются улучшить заголовок статьи, чтобы на неё заходило больше людей. Делают более "желтушным". Но где тут A/B тестирование?
Редакторской работы много, да