{"id":14284,"url":"\/distributions\/14284\/click?bit=1&hash=82a231c769d1e10ea56c30ae286f090fbb4a445600cfa9e05037db7a74b1dda9","title":"\u041f\u043e\u043b\u0443\u0447\u0438\u0442\u044c \u0444\u0438\u043d\u0430\u043d\u0441\u0438\u0440\u043e\u0432\u0430\u043d\u0438\u0435 \u043d\u0430 \u0442\u0430\u043d\u0446\u044b \u0441 \u0441\u043e\u0431\u0430\u043a\u0430\u043c\u0438","buttonText":"","imageUuid":""}

Алексей Березовой

11 мар 2021 11.03.2021

Как The New York Times тестирует заголовки статей

Перед вами перевод статьи из блога Tom Cleveland. Он рядовой американский программист, но интересуется журналистикой. Чувак проанализировал работу The New York Times над заголовками и визуализировал данные. Мне показалось это интересным, поэтому я перевёл статью и выкладываю здесь с некоторыми сокращениями.

New York Times рассказывает своим рекламодателям, что они — это источник новостей №1 для молодых и богатых идейных лидеров. NYT рисует определенную картину мира и в некоторых кругах она становится картиной мира по умолчанию, согласны вы с ней или нет.

Портрет аудитории NYT

Я хотел узнать больше об этой картине. Так что в течение следующих нескольких недель я буду публиковать серию сообщений в NYT, опираясь на данные, взятые с их первой страницы и взятые из их официального API.

Эта статья посвящена A/B-тестированию: как NYT тестирует разные заголовки и как они меняются с течением времени.

А/B-тестирование в The New York

Ладно, сейчас идёт 2021 год — было бы шоком, если бы New York Times не использовала в заголовках A/B-тестирование.

И они открыто об этом говорят:

NYT также практикует проведение так называемых A/B-тестов заголовков, которые появляются на его домашней странице: половина читателей будет видеть один заголовок, а другая половина — альтернативный заголовок в течение примерно получаса. В конце теста The Times будет использовать заголовок, который привлек больше читателей.

Но вопросы остались:

Сколько статей проходит A / B-тестирование?
Сколько заголовков проверяется для каждой статьи?
Помогает?
Насколько разные заголовки?

Методология

Я написал скрипт, который:

Парсит домашнюю страницу NYT
Вытаскивает все заголовки
Связывает их с метаданными статей из официального NYT API
Запихивает заголовки в базу данных

Скрипт запускается каждые пять минут. Я начал делать это 13 февраля 2021 года, поэтому всё, что будет дальше, основано на данных с этого времени.

Результаты

NYT действительно проводит A / B-тестирование своих заголовков. Примерно 29% статей имеют несколько заголовков, а наибольшее количество заголовков, наблюдаемых для одной статьи (на данный момент), составляет восемь.

Среднее количество заголовков для одной статьи

Многие из этих изменений заголовков довольно незначительны — NYT обычно исправляет ошибки в заглавных буквах или пунктуации после публикации статьи.

И иногда кажется, что редакторы не могут определиться: следует ли писать заглавными буквами?

В других случаях NYT меняет заголовки по мере развития сюжета. Вот отличная история, рассказанная в заголовках:

Но большинство смен заголовков — это явно A / B-тесты, требующие большого количества кликов.

Вот статья о стиле правления Байдена с довольно драматичным изменением заголовка:

Единственная причина для такого рода изменений — попытка повысить вовлеченность. И это сработало! Эта статья попала в список «самых просматриваемых» через несколько часов после смены заголовков (что подтверждает мою теорию о том, что либералы любят читать о Трампе).

Но не все A / B-тесты имеют такой успех. Вот A / B-тест, который определенно провалился (возможно, придется прищуриться, чтобы увидеть крошечное синее пятно на меньшем экране):

Надеюсь, эта неудача не отпугнула чокнутого редактора, стоявшего за «Прыгающим Иосафатом!». NYT определенно может использовать больше Bugs Bunny-isms (непереводимый американский фольклор — прим. А.Березового).

Но в целом у этих A / B-тестов есть закономерность: со временем заголовки становятся все более драматичными. Возьмите эту статью о секс-скандале Куомо:

При первой смене заголовка Куомо переходит из нападения в осаду, а во второ смене он больше не пересматривает свой план, он извиняется.

И это работает: по мере изменения заголовка мы видим, что статья поднимается в рейтинге «самых просматриваемых».

В этой статье об адресе CPAC Трампа заголовки становятся еще ярче:

Трамп начинает с обращения к консерваторам и утверждения лидерства G.O.P. (Республиканская партия — прим. А.Березового), но в последнем заголовке у Трампа есть расстрельный список, и он делает предупредительный выстрел. И действительно, напыщенная риторика продвигает эту статью в список «самых просматриваемых».

Теперь последний пример: эта чрезвычайно популярная статья об интервью Опры с Меган Маркл:

Я смотрел это интервью — все два часа — и могу сказать вам, что первые два заголовка намного лучше отражают то, что произошло. Да, Меган раскрывает, что подумывала о самоубийстве, но это пятиминутный перерыв в интервью, в котором происходит гораздо больше. Например, ни в одном из этих заголовков не упоминается роль, которую расизм сыграл в бедственном положении Меган — тема, которая отнимает у экрана гораздо больше времени, чем её суицидальные мысли.

Работает ли это?

Приведенные выше статьи стали намного популярнее после некоторого A / B-тестирования — но работает ли это в целом?

Я подсчитал, что статьи NYT, прошедшие A / B-тестирование, на 80% чаще попадают в «самые популярные» списки. И, что неудивительно, больше тестирования заголовков коррелирует с большей вовлеченностью:

Предостережение: количество заголовков и вовлеченность взаимосвязаны, но кто знает, в каком направлении работает причинно-следственная связь. Мне кажется логичным, что чем больше вы тестируете заголовок, тем больше вероятность того, что ваша статья получит общий доступ / лайк / клик.

Но также возможно, что NYT тратит больше времени на настройку уже популярных статей. Хотя, как ни странно, во многих статьях, которые я просмотрел, заголовки часто меняются, прежде чем статья попадает в большинство чартов).

Итак, что я узнал?

NYT проверяет заголовки, чтобы повысить вовлеченность.

Вау. (сарказм)

В целом, А/В тестирование имеет ограниченное применение.

Я очень удивлен, как мало заголовков проверяется NYT. Большинство статей не проходят A / B-тестирование, а большинство статей, прошедших A / B-тестирование, имеют только два заголовка.

Я бы предположил, что редакторы NYT ставят задачу сотрудникам представить тексты с шестью возможными заголовками, и что какая-то автоматизированная система проверяет все шесть загов в первый час. Но очевидно, что это неправда — несмотря на то, что данные показывают, что большее количество A / B-тестирования повысит вовлеченность.

Одно из возможных объяснений: 62% дохода NYT поступает от подписок, и только 27% приходится на рекламу (а доход от рекламы падает из года в год). Это означает, что просмотры не так важны, как подписки, а первая страница, заполненная кликбейтами, скорее всего, отпугнет потенциальных подписчиков.

Всё это приводит к эмоционально заряженным заголовкам.

NYT обычно более сдержан, чем BuzzFeed, но мы должны помнить, что это не нейтральный наблюдатель. Как показывают приведенные выше примеры, заголовки, прошедшие A / B-тестирование, рисуют гораздо более драматичную картину, чем реальность. Постоянные читатели New York Times в конечном итоге будут думать, что мир страшнее, чем есть на самом деле.

Что дальше

В следующем посте я рассмотрю первую страницу NYT, а именно:

Как долго статьи остаются на первой странице
Какие статьи проводят больше всего (и меньше всего) времени на первой странице
Какой контент наиболее вероятно (и наименее вероятно) появится на первой странице
Как время выхода на первую страницу соотносится с общей вовлеченностью

И другие забавные штуки.

Напишите в комментариях, если вам интересно!

Эту статью для вас перевёл

Алексей Березовой

медиаэксперт, главред Дeлoбaнкa

Вы наткнулись на этот материал случайно. Чтобы гарантированно получать полезную информацию о медиа, подпишитесь на мой телеграм-канал.

8 показов

9.5K открытий

1 репост

36 комментариев

Написать комментарий...

Артур Шимко

11.03.2021

Интересное исследование, кайфанул от погружения в тему, особенно про связку количества тестов со статьями дохода, есть над чем поразмышлять после прочтения, накинуть свои мысли.
Было бы здорово в конце собирать основные цифры в небольшую таблицу, чтобы по тексту не искать
Жду следующей статьи, спасибо!

Ответить

Развернуть ветку

Семен Смирнов

12.03.2021

Ну камон, просто почитайте про АБ тесты и проверку гипотез в продуктовой разработке, у любой заметной компании есть такое десятки лет

Ответить

Развернуть ветку

Артур Шимко

12.03.2021

Вот это секретики, а то я подумал что это инновация NYT, спасибо что просветили. А что за «гипотеза» и как найти «заметную» компанию, есть ссылки? хочу просветиться, говорят, после, можно отвечать на комменты в vc даже не понимания о чем они

Ответить

Развернуть ветку

Семен Смирнов

12.03.2021

Конечно

Сходу АБ тесты в Авито, Яндексе, Plarium
Если дальше листать, можно уже под себя найти компанию позаметнее

хабр a/b - Поиск в Google

www.google.com

Ответить

Развернуть ветку

Алексей Березовой

12.03.2021 Автор

Простите, что потревожили вас своей статьёй.

Ответить

Развернуть ветку

Роман Снеговский

15.03.2021

Камон, речь о медиа, а не о интернет-сервисе.

Ответить

Развернуть ветку

Алексей Березовой

12.03.2021 Автор

👍

Ответить

Развернуть ветку

Vladik

11.03.2021

Больше похоже на многорукого бандита

Upd: а впрочем, они сами описывают процесс в своём блоге
https://open.nytimes.com/how-the-new-york-times-is-experimenting-with-recommendation-algorithms-562f78624d26

Ответить

Развернуть ветку

Uzabila

12.03.2021

Интересно, что у них блог на Medium при том, что у самих огромная медиа-платформа.

Ответить

Развернуть ветку

Алексей Березовой

12.03.2021 Автор

Раскидывают свои сети везде, где могут))

Наверное, есть часть аудитории, которая входит через Медиум. На западе Медиум гораздо популярнее, чем у нас.

Ответить

Развернуть ветку

Vladik

12.03.2021

Это просто как на хабре корпоративный технический блог вести, там своя атмосфера и аудитория

Еще пример:
https://netflixtechblog.medium.com/

Netflix Technology Blog – Medium

Read writing from Netflix Technology Blog on Medium. Learn more about how Netflix designs, builds…

netflixtechblog.medium.com

Ответить

Развернуть ветку

Алексей Березовой

12.03.2021 Автор

Похоже на то.

Ответить

Развернуть ветку

Алексей Березовой

11.03.2021 Автор

кайфец, спасибо

Ответить

Развернуть ветку

Alen Alyushin

13.03.2021

WP плагинов никто не знает под такие тесты?

Ответить

Развернуть ветку

Ivan Illyn

15.03.2021

Тест получится не совсем корректный. Дело в том, что перед A/B тестом надо проводить A/A тест, чего в плагинах я не видел.

Ответить

Развернуть ветку

Алексей Березовой

15.03.2021 Автор

Иван, А/А это как?

Ответить

Развернуть ветку

Ivan Illyn

16.03.2021

A/A похож на A/B. Только вместо налива читателей на два разных заголовка, в нашем случае, мы наливаем 2 группы на 2 одинаковых. В A/A мы проверяем сам принцип деления пополам. Насколько он корректен? Половинки аудитории ведут себя абсолютно одинаково? При прочих равных.

Если «да», то цифры последующего или параллельного A/B тестирования получают ненулевую ценность. Если «нет» — цифры хорошо будут смотреться на помойке.

Это может казаться странным, но во множестве случаев аудитория или делится пополам по негодному принципу или просто её статистически мало, она не особо репрезентативна. Допустим случайным образом в группу A налились случайные социалисты, условно, а в группу B коммунисты. Среди читателей NYT и те, и те. Но набились неровно, просто по рандомайзеру, а-ля, так вышло. И кликают эти 3 человека по-разному. О чём это говорит? Ни о чём.

Ответить

Развернуть ветку

Алексей Березовой

16.03.2021 Автор

Супер, спасибо!

Ответить

Развернуть ветку

Алексей Березовой

13.03.2021 Автор

тоже было бы интересно узнать

Ответить

Развернуть ветку

Alen Alyushin

13.03.2021

Нашёл несколько, вот вроде норм https://thrivethemes.com/optimize/

Ответить

Развернуть ветку

Алексей Березовой

15.03.2021 Автор

Супер, спасибо

Ответить

Развернуть ветку

Валера Старовойт

12.03.2021

Круто, спасибо большое! Очень интересное исследование.
Я так понял, что заголовки меняются уже у выстреливших статей?
Как думаете, А/Б заголовки пишутся полностью вручную или агрегируются сработавшие ключи и с них составляются заголовки? Может другой способ автоматизации?

Ответить

Развернуть ветку

Алексей Березовой

12.03.2021 Автор

У меня ощущение, что заги генерятся вручную, редакторами. И меняет их выпускающий редактор, по мере динамики кликов.

Ответить

Развернуть ветку

Kira Nikolaev

11.03.2021

Алексей, а вы сами в канал пишете?

Ответить

Развернуть ветку

Алексей Березовой

11.03.2021 Автор

В свой — да.

Ответить

Развернуть ветку

Вадим Смирнов

12.03.2021

В чем разница заголовков в примере с "Don't Give in to Terror"?

Ответить

Развернуть ветку

Никита Греков

12.03.2021

In/in

Ответить

Развернуть ветку

Алексей Березовой

13.03.2021 Автор

не могут определиться — с большой или с маленькой буквы писать некоторые слова

Ответить

Развернуть ветку

Истории компаний

12.03.2021

Спасибо за весьма интересный материал. У них на сайте в списке новостей дискрипшин не отображается, только один тайтл?

Ответить

Развернуть ветку

Алексей Березовой

12.03.2021 Автор

В основном — заг и лид. Есть новостные плашки только с загами.

Ответить

Развернуть ветку

Чечёточник

12.03.2021

Где-то в середине ошибка в переводе "адрес CPAC Трампа". Там же не про адрес речь.
Вообще мощный инструмент, и не только для этих ваших A/B тестов.

Обратите внимание как теперь выглядит заголовок про интервью Меган и Гарри:

‘I Just Didn’t Want to Be Alive Anymore’: Meghan Says Life as Royal Made Her Suicidal

Статья редактировалась несколько раз, в течение двух дней после публикации.
"Ну, поманипулировали немного, и хватит пока".

Ответить

Развернуть ветку

Ленин-гриб

12.03.2021

Кстати, подскажите, а есть ли англоговорящий аналог VC?

Ответить

Развернуть ветку

Алексей Березовой

12.03.2021 Автор

Medium.com

Ответить

Развернуть ветку

Andrey Gordeev

12.03.2021

Медиум совершенно не похож на vc

Ответить

Развернуть ветку

Vladimir Volokhonsky

16.03.2021

Из этих примеров на A/B-тестирование заголовка похож только последний график. Только тут мы видим, что явно у статьи есть два заголовка одновременно и одним показывается одно, другим - другое. В остальных случаях - обычная редакторская работа. Люди видят по реакции читателей, которые прочитали статью (глубина просмотра, время на странице), что она приносит больше дохода и пытаются улучшить заголовок статьи, чтобы на неё заходило больше людей. Делают более "желтушным". Но где тут A/B тестирование?

Ответить

Развернуть ветку

Алексей Березовой

16.03.2021 Автор

Редакторской работы много, да

Ответить

Развернуть ветку

Написать комментарий...

33 комментария

Раскрывать всегда