Как The New York Times формирует главную страницу своего сайта

Исследуем, какие тексты попадают на главную страницу NYT и сколько времени там остаются. Анализируем пропорции новостного, развлекательного и экспертного контента. Задаёмся вопросом, почему в то время, как военная хунта расстреливает протестующих в Мьянме, одно из самых авторитетных изданий в мире пишет на главной странице про яичницу.

Перед вами перевод статьи Тома Кливленда, программиста из Санта-Барбары. Том изучает, как устроена редакционная кухня The New York Times, а мне интересно читать его исследования, поэтому я делюсь ими в своём блоге.

Это вторая статья, основанная на постах Тома про The New York Times. Ссылку на первую статью даю в тексте. Оригинал второй статьи находится здесь (ссылка на блог Тома).

***

Недавно я исследовал, как New York Times тестирует заголовки статей, и обнаружил, что заголовки, со временем становятся более драматичными. В этом посте я более подробно исследую первую страницу The New York Times, чтобы понять, что является самым ценным на взгляд редакции.

Что за главная страница, старичок?

Я говорю о первой странице сайта: то, что появляется, когда вы загружаете www.nytimes.com. Выглядит это так:

Как The New York Times формирует главную страницу своего сайта

Да, вы можете проскроллить главную страницу вниз и по мере прокрутки загрузится больше историй. В этом исследовании я не рассматриваю их, потому что этот контент находится не на первом экране. [курсив мой — А.Б.]

Методология

Я написал парсер, который

  • Сканирует главную страницу New York Times каждые пять минут.
  • Вытаскивает все статьи, которые там находятся
  • Связывает их с каноническими данными из NYT API

Конечным результатом является временной ряд данных о статьях, отвечающий на вопрос: какие статьи были на первой странице в момент X?

Обновление статей на главной странице

Первый вопрос, который у меня возник: как часто меняется первая страница?

Раньше статьи оставались на первой странице около суток. Сейчас подавляющее большинство статей остаются на первой странице менее 24 часов, при этом средняя продолжительность «первенства» составляет около 9,5 часов.

Но — внимание — 10% статей на первой полосе остаются там менее часа:

Как The New York Times формирует главную страницу своего сайта

В мире пост-бумаги это имеет смысл. Первая полоса NYT — это драгоценный актив. Если статья неэффективна, её должны быстро заменить чем-то, что привлекает больше внимания. Но это также означает, что мы (читатели) упускаем 10% статей, которые были недостаточно интересными, чтобы выжить.

Итак, какие статьи сохранились? Другими словами, какие статьи проводят больше всего времени на первой странице?

Самые раскрученные статьи

Приведенная выше диаграмма усечена до 48 часов — из нее пропущен небольшой процент статей, которые остаются на первой странице в течение нескольких дней. Вот, например, этот впечатляющий репортаж о яичнице-болтунье, который шесть дней висел на первой странице:

Как The New York Times формирует главную страницу своего сайта

Фактически, большинство статей, которые я просматривал, были «заряжены» [имели рекламный подтекст — А.Б.]. Некоторые даже явно заступали на территорию рекламы.

Например, эту статью сложно рассматривать как что-то иное, кроме рекламы норвежской шерсти:

Как The New York Times формирует главную страницу своего сайта

И это было на первой полосе четыре дня! Военная хунта расстреливает протестующих в Мьянме; 30 000 американских организаций были взломаны китайцами; в Афганистане, Эфиопии и Йемене идут войны, а New York Times экономит место на первых полосах для настоящих новостей: они рассказывают про куртки, в которых вы будете хорошо выглядеть на конференции в Альпах.

Присмотревшись к оплошностям

Возможно, я несправедлив — может быть, «настоящие новости» быстро меняются и, следовательно, имеют высокую текучесть.

Давайте попробуем сложить все часы на первой полосе для всех статей, а затем посмотрим, как эти часы разделены между «настоящими новостями» и «ерундой».

К сожалению, в NYT API нет разметки, которая позволила бы выделить «ерунду», поэтому мне пришлось проявить немного творчества.

Время на первой странице, по тегам

Я знал, что NYT присваивает всем своим статьям теги, чтобы систематизировать их по темам. Поскольку я пытаюсь выяснить, какие статьи являются «ерундой», я подумал, что эти теги могут дать подсказку.

Итак, я начал с разделения времени на первой странице по тегам:

Как The New York Times формирует главную страницу своего сайта

Приведенная выше диаграмма (и остальные диаграммы ниже) показывают распределение часов на первой странице, отвечая на вопрос: «Сколько всего времени на первой странице отводится статьям типа X?»

Как бы то ни было, этот график рисует безупречную картину первой страницы NYT. Первые пять тегов либо о

  • Политика США, или
  • COVID-19

И вроде да, это довольно серьезные темы в 2021 году.

Но хотя эти теги звучат серьезно, довольно легко найти «заряженные» статьи с серьезными тегами. Тег «Коронавирус (2019-nCoV)», безусловно, включает в себя серьезные новости, но им также были помечены списки свадебных идей, обзор оздоровительных приложений и странные призывы, чтобы дети выполняли больше работы по дому.

Так что смотреть на теги интересно, но это не совсем точно соответствует категориям чуши / новостей, которые мне нужны.

Время на первой странице, по разделам

Я слышал, что бумажные газеты были разделены на листы, каждый из которых был физически отделен от остальных, чтобы читатели могли обмениваться ими в поезде, попивая скотч на завтрак. [не знаю, насколько он молод, чтобы не видеть бумажных газет 😆 — А.Б.]

В наши дни разделы в газетах различаются по URL-адресам, и у каждой статьи может быть только один URL-адрес. Это означает, что раздел статьи довольно хорошо описывает, о чем статья (тогда как статья может иметь неограниченное количество тегов).

Итак, я еще раз взглянул на общее время на первой странице, на этот раз по разделам:

Как The New York Times формирует главную страницу своего сайта

Вы догадались, что секция мнений была самой раскрученной секцией New York Times? Я был немного удивлен — казалось, что первая страница полна свежих новостей, но остальные разделы тоже имели довольно высокий вес.

К сожалению, я всё еще сталкиваюсь с той же проблемой, что и раньше: эти разделы не очень четко сопоставляются с моими категориями «ерунды» и «новостей». Раздел, «США» безусловно, содержит много реальных новостей, но в нём также есть статьи об эссе при поступлении в колледж, дронах для боулинга и снегоочистителях с забавными названиями.

Ну, вернёмся обратно к нашим диаграммам.

Поймать перерыв

В этот момент я уже отчаялся. Я безрезультатно гуглил статьи про машинное обучение и GPT-3 для анализа контекста. И начинал думать о том, сколько времени мне потребуется, чтобы просмотреть примерно 3500 статей в моей базе данных и вручную отсортировать их по категориям «пустяки / новости».

Но мне повезло. Я случайно посмотрел недокументированный GraphQL API New York Times (у всех нас есть свои хобби, связанные с COVID) и натолкнулся на поле под названием «тон» со следующими возможными значениями:

Просмотр недокументированного API GraphQL от NYT
Просмотр недокументированного API GraphQL от NYT

Это выглядело многообещающе! Это не то, что NYT показывает на своем веб-сайте, но, очевидно, «тон» достаточно важен для них, чтобы сохранить их в своей базе данных статей. Итак, я добавил это новое поле в свою базу данных и обнаружил, что примерно 55% статей были НОВОСТИ, 35% - ФИЧЕРЫ и 10% - МНЕНИЯ:

Как The New York Times формирует главную страницу своего сайта

Статьи сгруппированы по тону (как ни странно, НЕОФИЦИАЛЬНЫЙ тон никогда не появляется).

Что означают эти «тоны»? NEWS кажется довольно простым тоном, как и OPINION, и NO_TONE_SET встречается достаточно редко, чтобы его игнорировать. Но что это за тон ФИЧЕР? Я взял случайную выборку заголовков, окрашенных в FEATURE, чтобы выяснить:

Случайная выборка заголовков в тонах FEATURE
Случайная выборка заголовков в тонах FEATURE

Бинго! Даже я не мог бы придумать более ерундовых заголовков! Очевидно, что «ФИЧЕР» — это своего рода промышленный термин для обозначения чуши, и New York Times уже отслеживает это!

Я немного покопался в том, что означает «ФИЧЕР», и оказалось, что я полный обыватель: «FEATURE» — чрезвычайно известная и широко используемая категория в новостном бизнесе.

И тут я всё понял!

Время на первой странице, тоном

Хорошо, теперь, когда я добавил тон в свою базу данных, я наконец-то могу ответить на вопрос: какая часть первой страницы NYT [информационно] пуста?

Итак, вот оно, открытие:

Как The New York Times формирует главную страницу своего сайта

Около трети первой полосы — чушь собачья.

И чуть менее половины первой полосы — это новости.

А как насчет редакционных статей?

Раздел мнений бросает вызов дихотомии «новости / чушь» — с одной стороны, редакционные статьи всегда были центральной частью газет, и они оказывают сильное влияние на общественный дискурс. В лучшем случае редакционные статьи помогают нам понять непрекращающийся поток новостей и сформулировать его в более широком контексте, поэтому называть их «ерундой» кажется немилосердным.

Но я все еще не уверен, что передовицы — это новости. Когда Дэвид Брукс высказывается на тему как «Как любить Америку», «Дело Майка Блумберга» или «Девять неочевидных способов более глубокого разговора», определенно не происходит никаких новостей. Это больше похоже на проповеди, в которых речь идет о трансляции моральных или культурных ценностей, но не о новостях.

Заключение

Мы не ответим на вопрос, «являются ли редакционные статьи новостями. Здесь возникает более интересный вопрос: что мы делаем, когда читаем новости?

Я думаю, что некоторые люди рассматривают «чтение новостей» как образовательную деятельность: читать новости — значит быть информированным, значит быть хорошим гражданином, значит получать образование. Но получается, что когда вы скроллите NYT — это хорошо, а когда вы скроллите Instagram — это плохо.

Но не всё так просто. Приведенный выше анализ показывает, что меньше половины того, что вы читаете при прокрутке NYT, — это новости. Другая половина — это

  • мнения других людей об этой новости
  • рассказы о яичнице, модных шерстяных пальто, пелотоне и т. д.

Если вам нравится читать ерунду, это нормально! Но когда я читаю «Нью-Йорк Таймс», мне часто кажется, что происходит кликбейт. Для меня это слишком тонкая грань между «Я открываю Нью-Йорк Таймс, чтобы быть в курсе последних новостей» и «Я читал про праздничные окорока в течение получаса».

И это, конечно, намеренное устройство главной страницы! Нью-Йорк Таймс предпочел бы, чтобы вы не закрывали свой ноутбук, когда закончите сканировать 10–15 заголовков сегодняшних новостей, поэтому они дополняют новости различными приманками для белых воротничков, например, «Покупки для кушеток».

Так что в последнее время я пытаюсь читать только новости. Я даже создал [специальную] страницу, на которой отображаются только статьи с тоном NEWS с главной страницы NYT, чтобы мне было легче игнорировать другие вещи.

Это немного менее увлекательно, чем полная версия New York Times, но зато я не трачу время на чтение статей типа «Когда одного холодильника недостаточно».

В следующий раз

В следующий раз я проанализирую вовлечённость: на какие статьи с наибольшей вероятностью будут кликать, какие будут отправлять по электронной почте и какими делиться в социальных сетях.

Эту статью перевёл и адаптировал к публикации

Алексей Березовой
медиаэксперт, главред Дeлoбaнкa

Вы наткнулись на этот материал случайно. Чтобы гарантированно получать полезную информацию о медиа, подпишитесь на мой телеграм-канал.

2121
7 комментариев

Если вам нравится читать ерунду, это нормально! Но когда я читаю «Нью-Йорк Таймс», мне часто кажется, что происходит кликбейт.

Нью-Йорк Таймс это типа нашей Ленты что ли? На Коммерсантъ я вот не встречал статей про качество шерсти и покупки для кушетки. Слишком долгая статья с довольно неглубоким выводом. Сам автор её куда бы отнес в фичеры или мнения?

Перефразируя мем, тут книга бы называлась «Исследуя помойки - да, это помойка».

3
Ответить

С этим не поспоришь

1
Ответить

NYT это издание для американских пенсионеров, наши пенсионеры читают исключительно Дзен😎

2
Ответить

Пожалуй, не соглашусь с вами.
30+ млн. MAU, 5+ млн. платных подписчиков.
NYT — одно из самых цитируемых изданий в мире. Одними пенсионерами здесь не обойдёшься.

2
Ответить

У нее NYT определенно лучшая верстка, но что там читать – не понятно. Почти по любой теме есть профильное издание намного лучше качеством. 

1
Ответить

В статье как раз приводится доказательство ваших слов))

Ответить