Исследование: как российские журналисты пишут об интернет-регулировании

Статья посвящена нашему исследованию более 18 тысяч материалов российских СМИ, в результате которого мы составили рейтинг 100 самых заметных журналистов, пишущих об интернет-регулировании в России. Исследование показывает, в каких жанрах они пишут, какую позицию: нейтральную, за или против, представляют их тексты и насколько сложно они устроены.

Исследование проводили в феврале-апреле 2019 года два аналитика с помощью системы мониторинга Brand Analytics, Excel, языка программирования для статистической обработки данных R и модуля R для анализа качественных данных RQDA.

Рассматриваемый период: второе полугодие 2018 года.

Для начала мы изучили похожие исследования в интернете. Источниками вдохновения стали вот этот машинный анализ массива публикаций Lenta.ru за 18 лет и этот анализ американских СМИ.

Сфера регулирования связи, СМИ и интернета — многосложная область. Чтобы точнее её проанализировать, для начала нужно составить словарь ключевых слов, потому что рубрики и теги, которые сопровождают публикации, не всегда достаточно релевантно описывают их содержание.

Составив словарь из около трёхсот понятий и словосочетаний, мы поняли, что только на подготовку базы публикаций уйдут годы.

Например, только один ключевой запрос «интернет» за один день в «Коммерсанте» может упоминаться около 20 раз, из которых половина не будет относиться к теме регулирования.

Тогда мы решили сократить список ключевых слов до упоминаний регулятора этих сфер — Роскомнадзора. Это ведомство в последнее время упоминается в большинстве публикаций СМИ о регулировании интернета в связи с подготовкой новых законопроектов (из недавно нашумевших: законы об оскорблении власти и суверенном интернете).

После объединения в одну базу 18 тысяч материалов мы исключили:

новостные агрегаторы, потому что они дублируют информацию из других источников;
издания с тИЦ «Яндекса» меньше сотни (пощадили только несколько отраслевых изданий вроде spbit.ru);
издания, в которых указание авторства не предусмотрено в принципе (простите, РИА «Новости», ТАСС, «Интерфакс», Rambler News Services и другие);
публикации без указания автора.

В итоге у нас осталось чуть более 3700 публикаций.

Впереди нас ждала самая трудоёмкая работа: заполнить вручную все метаданные:

дату и время публикации.
ссылку;
автора;
рубрики, тематические категории или теги материала, представленные на сайте-источнике;
показатели вовлечённости аудитории (если они представлены на сайте): количество просмотров, рейтинг публикации, голоса «за» и «против», число комментариев, ретрансляций в соцсети и прочее.

К сожалению, от идеи стопроцентного машинного анализа материалов пришлось отказаться по ряду причин.

Во-первых, результаты тематического моделирования плохо интерпретировались и не позволяли построить внятную тематическую модель. Конечно, можно было выбрать более-менее понятный вариант, вручную исправить забавные артефакты вроде «дмитрий песок» или «александр жар» и нарисовать диаграммы. Но нам нужно было исследование, а не очередной туториал по анализу текста.

Во-вторых, поиск цитат и косвенной речи на русском языке если и доступно, то далеко не бесплатно. Например, набор софта от Provalis Research стоит около 500 тысяч рублей. Бюджет на дополнительное ПО предусмотрен не был, а разработка собственного алгоритма заняла бы неопределённо много времени.

Наконец, как быть с авторской позицией (отношением к какому-либо объекту, тональностью)? Самое простое решение — со словарём посчитать «хорошие» и «плохие» слова в публикациях. Но о чём будет говорить такая безобъектная тональность?

Неплохой идеей показалось привлечь данные краудсорсингового проекта по русской семантике «Карта слов» Д. Кулагина. А именно — Тонального словаря русского языка.

Для каждого документа мы посчитали тональность (безобъектную: позитив минус негатив) и общую эмоциональность (позитив плюс негатив). Показатели получились не слишком информативными. Например, публикации изданий вроде Medialeaks, «Палач говорит» и iGuides в среднем более эмоциональные, чем у изданий «общего профиля» («Известия», «Российская газета»), а последние оказались эмоциональнее бизнес-изданий («Ъ», РБК, ComNews). Выводы вполне ожидаемые и на глубину никак не претендующие.

И ещё интересная деталь для тех, кто в теме: распределение «эмоциональности» документов оказалась почти идеально близким к нормальному. И получилось, как в анекдоте, который цитирует известный медиа-аналитик Игорь Райхман: «В аналитике, как в крематории: сколько ни автоматизируй, но без людей не обойтись».

Другими словами, наш количественный анализ должен был сочетаться с качественным, экспертным. Таким экспертным методом мы и классифицировали материалы по типам и тематикам.

Все многообразие жанров и типов публикаций мы свели к восьми:

новостная заметка;
аналитический материал;
авторская колонка;
дайджесты, рейтинги и подборки;
инструкция;
интервью;
обзор отраслевого исследования;
репортаж.

30% авторских материалов представляют собой аналитические, рассматривающие вопросы интернет-регулирования

Около двух третей публикаций — новостные заметки: сообщение фактов, цитирование высказываний представителей власти или бизнеса, ссылки на пресс-релизы и официальные заявления ведомств и компаний.

Около 30% авторских публикаций — аналитические материалы. Этот жанр для нас представлял наибольший интерес, поскольку включает в себя элементы журналистского расследования, приведение статистических данных, привлечение различных экспертов по вопросам интернет-регулирования.

На третьей позиции по типам публикаций — авторские колонки. Признаки таких публикаций: экспрессивный заголовок, наличие авторских рассуждений и оценочных суждений.

Жанр интервью слабо представлен в авторских публикациях. В рассмотренных нами журналисты обращались к экспертам в сфере интернет-безопасности и юриспруденции, представителям общественных организаций и медиа-экспертам.

Другие типы публикаций включают в себя репортажи, обзоры исследований, инструкции и советы, карикатуры и прочие. Каждый перечисленный тип занимает менее 1% доли публикаций за период.

А теперь про темы.

Все материалы мы распределили по 14 тематическим категориям:

взаимодействие с ИТ-корпорациями;
внутренняя политика;
вопросы взаимодействия с профильными ведомствами;
деятельность экспертов, аккредитованных в РКН;
законодательное регулирование;
кибербезопасность;
обращения в РКН с запросами о защите прав;
внешняя политика, санкции;
ограничение доступа к контенту;
отставки и назначения;
борьба с пиратством;
регулирование СМИ;
связь;
судебные иски.

Фокус внимания СМИ сосредоточен на ограничении доступа к контенту и дискуссии, какую информацию считать запрещенной и опасной, а также законодательном регулировании интернет-отрасли

В аналитических материалах журналисты чаще, чем в новостных заметках, освещают вопросы законодательного регулирования и кибербезопасности.

Тем самым авторы способствуют развитию экспертной и общественной дискуссии и просвещают читателей.

Почему так происходит?

Для темы «законодательное регулирование»:

Запрос на разъяснение потенциального воздействия закона на общественно-экономические процессы и особенностей правоприменения новых законов.
Интерес к зарубежной практике.
Коммуникационная активность инициаторов, сторонников и противников новых законов.

Для темы «кибербезопасность»:

Растущее внимание власти и бизнеса к вопросам информационной безопасности;
Увеличение числа и видов киберугроз;
Рост общественного беспокойства по поводу безопасности личных данных.

Ещё было интересно изучить, как сочетаются между собой типы публикаций и преобладающие тематики в самых заметных СМИ. При расчете заметности учитывались количество сообщений, суммарный объем публикаций и тИЦ «Яндекса»:

Десятка наиболее заметных изданий с точки зрения повестки и преобладающих форматов публикаций

3500 материалов и около 1000 авторов — слишком большой объём информации для подробного анализа, выполняемого в полуавтоматическом режиме.

Для анализа одной публикации в среднем требовалось от 5 до 40 минут в зависимости от объёма. Поэтому, чтобы отобрать релевантных для целей исследования авторов, мы использовали:

количество материалов автора;
суммарное количество знаков в публикациях автора;
максимальный индекс цитирования для автора;
показатели вовлечённости;
долю авторских материалов среди всех публикаций автора (отношение количества материалов, не являющихся новостной заметкой, к общему количеству публикаций автора).

Для дальнейшего анализа мы оставили первых 100 авторов, соответствующих критериям:

количество публикаций не менее четырёх;
наличие имени и фамилии (не никнейма).

Получившаяся база данных авторов доступна по ссылке.

Для анализа содержания мы обратились к методу контент-анализа, причём не классического, а интерпретативного.

В чем отличие?

В обоих случаях в массиве текстов люди вручную размечают (кодируют) определённые смысловые категории, а затем подсчитывается их встречаемость, совместное появление и так далее — вплоть до продвинутых статистических тестов.

В классическом контент-анализе категории сравнительно просты, для их выделения существуют чёткие правила. Даже шутят, что по хорошо прописанным правилам с кодированием справится даже обезьяна.

При интерпретативном подходе количественному анализу подлежат не только очевидные, но и сколь угодно неоднозначные и сложно формализуемые категории.

Небольшое отступление — о программном обеспечении. Часто для контент-анализа бывает достаточно обычного Excel, но это был не наш случай.
Существует дюжина наименований софта для контент-анализа, то есть для решения как минимум трёх задач:
1) управление и хранение системы категорий;
2) интерфейс для чтения и кодирования текста, хранение кодов;
3) инструменты для количественного анализа кодов.
Мы перепробовали пробные версии нескольких программ: ATLAS.ti, NVivo, MAXQDA. Самой удобной и приятной показалась программа от Provalis Research. Но помимо коммерческих ограничений у неё обнаружились и технические. Кодирование по поиску занимало до нескольких минут, при этом алгоритм промахивался знаков на 30–40.
Кроме того, было неясно, можно ли полученные коды выгрузить и подсчитать где-то ещё. Лучшим вариантом для нас оказалась надстройка RQDA для R. Она прекрасно (разве что не слишком красиво и удобно) справлялась с первым и вторым пунктами. А для третьего отлично подходит сам R.

Сам контент-анализ проходил в три этапа:

Формирование и верификация контент-аналитических категорий (открытое кодирование).
Разметка (осевое кодирование) фрагментов документов.
Количественный анализ результатов кодирования.

Кстати, из всего массива мы выбрали часть документов и кодировали их вслепую: мы не видели ни авторов материала, ни издания, ни какой бы то ни было ещё информации о нём.

Как мы оценивали авторские материалы: — о чем предпочитает писать журналист, сфера его компетенций;— как он излагает информацию: с опорой на цитирование вовлеченных сторон и экспертов или на собственный анализ; — как выражается (если выражается) авторская или редакционная позиция по регулированию интернета.

Окончательный список категорий и кодов, по которым проводился анализ, выглядел так:

1. Мнение:

за регулирование;
против регулирования.

2. Дискурс:

технологии;
право, юриспруденция;
политика, мораль;
экономика, бизнес;
разговорный.

3. Цитирование:

вовлечённая сторона;
эксперт;
СМИ;
власть;
анонимный источник.

4. Компоненты текста:

данные, статистика;
собственные расчеты;
анализ, прогноз;
оценочное суждение.

Что означают все эти категории и коды, которые затем станут переменными для расчета характеристик авторов?

Мнение

В нашем анализе мнение — это частный случай тональности или показателя позитива, негатива (как принято в медиа-аналитике) или оценки (как в лингвистике).

Объект тональности: регулирование информационных технологий, которое в текстах представлено в виде упоминаний:

Положений действующих федеральных законов;
Положений законопроектов, получивших поддержку на высоком уровне (руководители отраслевых комитетов Госдумы, Совет Федерации, Совет Безопасности, ФСБ, президент);
Практики правоприменения в рассматриваемой сфере, деятельность соответствующих министерств и ведомств;
Государственного регулирования в целом. Например, «борьба с пиратством» или само словосочетание «государственное регулирование».

Кстати, отношение к объекту тональности может выражаться не только оценочным суждением («Иван Иванович хороший человек»), но и обычным пропозициональным («Иван Иванович — опытный борец с пиратством»).

Во втором случае оценочное суждение может быть выведено только в определённом контексте или с определённой перспективы с учётом стереотипов или социальных представлений автора или спикера.

Например, оценка законопроекта как ведущего к росту расходов компаний считается негативной, если высказана с точки зрения того, кто по идее заинтересован в росте доходов компаний (предприниматель, министр или сам журналист, если последний явно выражает солидарность с коммерсантами).

Пример: «блокировка привела к увеличению расходов компаний», «принятие закона приведет к росту тарифов», «<без ужесточения регулирования> данные пользователей могут оказаться в руках мошенников».

При анализе тональности учитывалась точка зрения, с которой явно солидаризировался автор высказывания (журналист или объект цитирования).

Дискурсы

Дискурс — категория, которую трудно правильно определить (и правильно назвать), хотя и вполне понятная на примерах. Фрагмент текста кодировался как принадлежащий тому или иному дискурсу, если он содержал термины, специфические для данной сферы деятельности, или рассуждения, построенные на понятиях и знаниях (законах, допущениях, предположениях), специфических для данной сферы.

В нашем случае мы выделили следующие дискурсы.

Технологии: ИТ, связь, промышленность, наука.

Примеры употребляемых слов: «VPN», «хостинг-провайдер», «маршрутизация», «системная интеграция»; «Инсталляция антивируса сопровождается установкой на ПК нового самоподписанного root-сертификата <...> это дает антивирусу возможность читать всю информацию, передаваемую с этого компьютера и на него, даже зашифрованную», «использование радиочастотного спектра в условиях увеличения источников радиопомех».

Право, юриспруденция: законы, правоприменение, локальные нормативные акты, юридические термины.

Примеры: «закон № 152-ФЗ», «политика конфиденциальности», «ответчик», «дух закона», «вступление закона в силу намечено на...»; «Согласно статье 15 закона такая обработка персональных данных допускается исключительно с согласия субъекта <...> в случае использования данных <…> к компании возникает множество вопросов: можно ли считать собираемые компанией данные общедоступными…»

Политика, мораль: оперирование терминами морали и межсубъектного взаимодействия.

Примеры: добро и зло, правда и ложь, сотрудничество и конфликт, влияние, долженствование, «права человека», «свобода», «ценности», «государство», «национальная безопасность», «Своим отказом сотрудничать <…> руководство Telegram добилось только того, что постепенно популярность их детища угасает».

Экономика, бизнес: рынки, инвестиции, контракты, предпринимательство, товары и услуги, руководство бизнесом.

Примеры: «банковская система», «отток капитала», «официально прибыль составила...», «идея для стартапа»; «В апреле 2016 года, когда было объявлено о приобретении 100% <…>, сумма сделки не называлась. <...> Точная сумма зависела от ключевых показателей эффективности и будущей выручки компании».

Разговорный: не дискурс, а, скорее, стиль речи.

Использовался как противопоставление публицистическому, которым обычно пользуются журналисты.

Примеры: «Рунет», «симка», «ни с того, ни с сего», «свято место пусто не бывает», «сливать» и т. п. Фрагменты текста, не размеченные как разговорные, считались официально-деловыми.

Цитирование

Источники цитирования в текстах авторов делятся на:

Вовлечённая сторона: инициатор инфоповода или сторона конфликта, пример — высказывания автора законопроекта, участника сделки или представителя стороны судебного процесса;
Эксперт: авторитетный в данной сфере субъект, способный дать независимую оценку или прогноз;
СМИ: цитирование или ссылка на другое издание;
Власть: представители власти (федеральной, региональной, муниципальной, иностранной);
Анонимный источник: вовлеченная сторона или эксперт, пожелавший остаться неназванным.

При кодировании цитат тоже были свои тонкости. Например, представители структур власти, несущих совещательную или аналитическую функцию («совет... при президенте», «аналитический центр при Правительстве»), кодировались как эксперты.

«Компонентами» мы называли те фрагменты текста, отличные от повествования и цитирования. Самые важные из них:

Данные, статистика: приведение статистических данных, выписок из реестров и т.д. Не учитывались приблизительные оценки: «много», «мало», «большинство».

Собственные расчёты.

Анализ, прогноз:

Получение новых знаний на основе изложенных или известных автору, спикеру фактов. Например:

логически последовательные рассуждения о причинах и взаимосвязях предмета обсуждения;
прогноз развития событий (например, регулирующего воздействия законопроекта);
последовательное расследование;
обобщающее суждение (например: «ФСБ давно лоббирует ужесточение регулирования интернета») с последующим приведением подтверждающих фактов;
объяснение, изложение специализированного дискурса доступным языком.

Оценочное суждение: использование квалификативных, а не дескриптивных определений.

Например, «отличная возможность», «важная проблема», «нашумевшая статья», «громкое заявление», «к сожалению». Сравните с дескриптивными: «российская власть», «нелегальное распространение контента», «беспроводная связь».

Характеристика авторского текста, которую легко (но долго) считать автоматически.

Журналисты по-разному подходят к построению предложений. В одних изданиях принято писать простыми короткими предложениями, другие не придают этому значения.

Мы посчитали среднюю длину предложения в словах. Но это только полдела.

Сравните:

«Российские компании могут найти альтернативных поставщиков, но ограничения со стороны американских производителей демонстрируют, что новая волна санкций США в отношении России, принятых за последние полтора года, оказывает влияние на торговые отношения между странами в сфере технологий» (36 слов)

«Таким образом, с одной стороны, в общем и целом становится ясным баланс сил между игроками, но с другой стороны не ясно, кто сделает первый ход, и, что тоже важно, в каком направлении» (32 слова).

При оценке авторского стиля мы решили отдельно учитывать «водность» текста — показатель, заимствованный из практики SEO-оптимизации. Это отношение количества служебных и вводных слов (список взяли с «Грамоты») к общей длине документа. Из количества слов в предложении вычитается доля «воды». Получается средняя длина предложения в «значащих» словах, что мы и назвали «насыщенностью».

Основной результат исследования — таблица с характеристиками авторского текста.

Она отражает выраженность контент-аналитических категорий в материалах авторов. Например: насколько часто журналист оперирует техническим, экономическим, юридическим или политическим дискурсом, как часто цитирует экспертов или представителей власти, анализирует ли факты и злоупотребляет ли оценочными суждениями. При подсчёте учитывался как авторский текст, так и фрагменты, содержащие цитирование (с понижающим коэффициентом).

Эти параметры мы визуализировали для десяти авторов.

Основные характеристики авторских материалов и их количество стали базой для формирования рейтинга журналистов

Для наглядности мы построили «карту журналистов» с двумерной системой координат:

по горизонтали — преобладающее мнение (отношение к регулированию), выраженное в текстах автора;

по вертикали — сложность (специализированность) подачи материала, при расчете которой учитывалась плотность специализированных дискурсов (в противоположность неспециализированным — политике и повседневному) и методов дескриптивного (не оценочного) изложения материала.

В оценке материалов СМИ учитывалась не только авторская позиция, но и позиции вовлечённых сторон и экспертов.

Большинство авторов концентрируется вокруг начала координат, что соответствует нейтральной манере подачи материала, сочетающей доступность и объективность.

Небольшие отклонения по оси преобладающего мнения могут быть случайными и зависеть от соотношения спикеров с теми или иными взглядами.

Также в анализе представлены авторы специализированных изданий. Как правило, это технические специалисты, тексты которых рассчитаны на подготовленную аудиторию.

Издания для широкой аудитории выделяются склонностью к повествовательному стилю изложения и стремлением выражать специализированные понятия простым языком, близким к разговорному.

Исходя из нашей базы данных журналистов и их показателей, можно выделить несколько типов авторов, освещающих повестку интернет-регулирования:

Авторы-отраслевики (используют много специализированных терминов. Например, И. Королёв).
Журналисты деловых изданий, которые специализируются на теме технологий (К. Болецкая, Р. Рожков, Ю. Тишина, М. Коломыченко).
Публицисты, часто апеллирующие к технологической повестке (Г. Бовт, К. Мартынов).
Журналисты из изданий общего профиля, вроде «Известий», «Телеканала 360» или «Российской газеты», которые освещают законодательные нововведения без обилия технических подробностей, но зато активно цитируют законодателей и регуляторов, из-за чего могут сдвинуться сильно вправо по шкале преобладающих мнений.
Авторы изданий, которые пишут в «информационном стиле» (TJournal, vc.ru, Medialeaks, iGuides): у них ниже «насыщенность» текста и много разговорных слов и оборотов, из-за чего они расположены по вертикали ниже, чем могли бы. При этом с помощью тех или иных средств они чаще выражают свою субъективную позицию в отличие от журналистов деловых изданий, которые предпочитают предоставлять слово экспертам.
Авторы, представляющие проправительственную позицию. Это, например, журналисты «Парламентской газеты», не использующие оценок в авторском тексте, но обильно цитирующие авторов и сторонников законопроектов.

Также мы проанализировали условия, при которых высказывались мнения за и против регулирования. Большая часть материалов политически нейтральна, при этом позиция за и против государственного регулирования чаще выражается собеседниками журналистов.

Контекст (дискурсы, окружающие высказывание с мнением): высказывания за регулирование чаще встречались в контексте политических и правовых рассуждений. Мнения против — при обсуждении технологий.

Цитирование: высказывания против регулирования чаще всего (40% случаев) принадлежат самому автору. За регулирование высказываются представители власти (16% высказываний) и вовлеченных сторон (41%), среди которых тоже часто встречаются сотрудники органов власти «при исполнении».

Композиция(расположение в материале). Расположение оценочно нагруженных высказываний по промежуткам, равным трети длины документа, показывает слабо выраженную тенденцию помещать их в конце публикации (39% мнений «за» регулирование и 40% мнений «против»).

Нельзя однозначно оценить, является ли она свидетельством использования авторами эффекта последовательного расположения. Этот эффект хорошо знаком многим в виде формулы: «Лучше запоминается то, что дается в начале или в конце».

Из представленной базы данных возможно сделать и другие выводы. Будем рады увидеть их в комментариях.

Также представленная методика будет полезной PR-подразделениям и пресс-службам для анализа медиа-поля своих отраслей. Готовы дополнительно рассказать, если что-то показалось непонятным: ivorobiev@rspectr.com.

В любом случае надеемся, что получилось хотя бы интересно.

Исследование: как российские журналисты пишут об интернет-регулировании

Как мы собирали данные

Как мы хотели всё посчитать быстро и что из этого вышло

Жанры, типы и тематика публикаций

Как мы отбирали журналистов для анализа

Как мы анализировали тексты

Компоненты

Насыщенность текста

Какие выводы получили

Инженеры человеческих душ или нейтральное зеркало реальности?

Заключение