«Искусственная журналистика»: как ИИ изменит правила игры в медиа

Искусственный интеллект проникает во многие профессии, и журналистика не стала исключением. Одни сотрудники СМИ с радостью берут новые методы на вооружение, другие боятся потерять работу, третьи — запрещают из-за вероятных ошибок и скучного стиля изложения. Кем станет генеративный ИИ — другом и помощником или опасным конкурентом? Какие задачи в журналистике легко можно доверить компьютерным алгоритмам, а для каких необходимы люди? Кому принадлежат авторские права на текст, написанный искусственным интеллектом? На эти и другие вопросы ответили эксперты — редакторы и юристы.

По данным российского сервиса Pressfeed, на 2023 год 66% журналистов и 48% экспертов в сфере СМИ использовали нейросети при подготовке материалов. При этом 86% опрошенных представителей медиа не верят, что в будущем генеративный ИИ оставит журналистов без работы, и только 1% считает возможным такой вариант. Остальные допускают использование нейросетей для выполнения отдельных задач, например написания коротких новостей. К большему ИИ не готов — по крайней мере, пока. Риск логических ошибок и искажения фактов слишком высок, оригинальность текстов далека от идеала, да и вовлекать (и развлекать) читателей лучше получается у людей.

Использование ИИ в журналистике стремительно растет последние семь лет. В газете Southern Metropolis Daily, местном СМИ города Гуанчжоу, первая статья робота-корреспондента Сяо Нянь вышла в начале 2017 года. Темой стала продажа билетов по маршруту Гуанчжоу–Чжэнчжоу. По словам разработчика, профессора Вань Сяоцзюнь, текст был написан за секунду. Он добавил, что робот не может брать интервью и вести диалог, но анализирует массивы данных гораздо быстрее человека.

Со временем ученые начали тренировать нейросети генерировать заголовки. На этом поприще отличились российские разработчики. На XXI Международной конференции по компьютерной лингвистике «Диалог» в 2019 году прошло соревнование по генерации заголовков на русском языке. Сотрудники команды прикладных исследований ВКонтакте создали программу-образец и платформу для проведения состязания. Два основных метода получения заголовка при помощи ИИ — это краткая «сухая выжимка» из статьи (абстрактивная суммаризация) или вырезание из текста какого-то фрагмента (экстрактивная суммаризация).

Лучшую модель создал Илья Гусев, аспирант кафедры компьютерной лингвистики МФТИ, взявший за основу подход машинного обучения seq2seq (Sequence-to-sequence). Он опирался на так называемый принцип перевернутой пирамиды — широко распространенную в журналистике структуру новости, в которой главная мысль выносится в начало текста. Победу Гусеву принесли две техники: byte-pair encoding, при которой слова разбиваются на несколько значимых частей на основе частотных характеристик, и механизм CopyNet, позволяющий вставлять слова в нужные места. Благодаря этому модель Гусева обобщала содержание текстов и делала заголовки лучше всех конкурентов.

Другому докладчику на той же конференции «Диалог», Матвею Степанову из МФТИ, удалось преодолеть ограничения, связанные с подходом seq2seq, который не позволяет использовать слова вне «словарного запаса» модели. Он сделал алгоритм абстрактивным, чтобы он мог использовать синонимы. Дополнительный механизм «штрафовал» модель при обучении за повторения в тексте.

На отдельной выборке текстов от «РИА Новости» лучший результат показала модель Андрея Соколова, бакалавра факультета прикладной математики — процессов управления СПбГУ. Его глубокая нейросеть с фразовым механизмом внимания была основана на архитектуре трансформер, которая помогает выдавать более связные тексты (такую модель использует и Яндекс.Переводчик). Кроме того, он смог сделать больший акцент на связи между фразами. Правда, в работе с другими датасетами алгоритм Соколова не был столь успешен — оказалось, что его эффективность зависит от информагентства, на сообщениях которого он обучен.

Российские СМИ уже взяли на вооружение алгоритмы искусственного интеллекта. Так, ТАСС с 2024 года переходит на новую цифровую платформу, где нейросети помогают верифицировать новости в автоматическом режиме.

«Условно говоря, мы сможем, заложив для проверки новость, полученную из каких-то социальных сетей, за кратчайший промежуток времени определить географическую точку ее рождения. Например, если новость о происшествии где-нибудь в России впервые идет из американского Денвера, то с высочайшей долей вероятности "загорится красная лампочка"», — пояснил Андрей Кондрашов, генеральный директор ТАСС.

Другие российские СМИ тоже используют нейросети. Газета РБК, например, провела эксперимент: в номере от 28 апреля 2023 года часть текстов и иллюстраций подготовили нейросети, разработанные «Сбером». Главный редактор Петр Канаев отметил, что ИИ умеет «работать с данными в колоссальных масштабах» лучше человека. Пока он не верит, что журналистика в современном виде из-за компьютерных алгоритмов исчезнет, но считает, что их появление — это «шанс изобрести профессию заново».

Во многих российских изданиях применение нейросетей не запрещают, но и не делают обязательным. Журналисты относятся к ИИ одновременно с интересом и с осторожностью.

«Ограничений на использование нейросетей в работе наших изданий нет, — рассказал нам глава объединенной редакции научно-популярных порталов Indicator.Ru и InScience.News Николай Подорванюк. — Не вижу никаких проблем в том, чтобы коллеги-сотрудники использовали искусственный интеллект, чтобы снизить временные затраты на производство своих материалов. Но надо помнить, что нейросети часто дают ложные ответы, и если коллеги пропустят такую ошибку и выдадут ее в печать, то это будет очень серьезным нарушением и проявлением неуважения к читателю».

Светлана Зыкова, главный редактор Rusbase, рассказала, что авторы издания протестировали ChatGPT для создания бэков (справочной информации с пояснениями, которую размещают в конце текста) к новостям. Но практика показала, что ИИ лучше подходит для других задач. «На формулировку запросов и проверку данных за ChatGPT уходит больше времени, чем на непосредственно написание фрагмента текста, с которым работаем», — поделилась Зыкова. Однако она отметила, что что нейросети могут «быстро собрать информацию или список компаний по заданной тематике» и «экономят время на этом этапе», сокращая долю «технических» задач. «Ближайшее будущее скорее за профессионалами, которые используют в своей работе современные инструменты, в том числе ChatGPT», — уверена она.

В других СМИ применения нейросетям пока не нашли. «В отделе спорта [нашего издания] ограничений нет. По крайней мере, нам не говорили о таком. Думаю, в настоящее время нейросети в нашей работе не особо помогают, поэтому нет смысла говорить об ограничениях: все равно мы ими не пользуемся», — прокомментировала Эльвира Ондар, заместитель редактора отдела спорта Газеты.Ру. Она ожидает, что программисты будут «развивать нейросети, прокачивать их интеллект дальше», чтобы избежать появления фейковых новостей.

Некоторые редакторы из-за рисков ошибок принципиально отказываются от ИИ при написании материалов. Издатель N+1 Андрей Коняев проводит параллели между текстами от нейросетей и человеком, который не разбирается в теме, заботясь только об интересе читателя и красоте слога. «Это очень хорошие тексты, в которых очень часто встречаются ошибки, глупости, откровенная чушь», — подытожил он.

Защититься от фейков и логических несоответствий в текстах нейросетей или хотя бы снизить риск появления таких ошибок вполне возможно.

«Не вижу других способов, кроме как находить "первоисточник" и понимать, есть ли на нем условный "штамп", что этому источнику можно доверять. Эту схему вполне можно развернуть с использованием, например, технологии распределенного реестра (блокчейна). Да и тот же ИИ можно использовать для первичного отбора источников и облегчения процесса верификации. Другое дело, всем ли в нашем современном сложном мире хочется прозрачности в работе с информацией? Но это вопрос риторический», — отметил Николай Подорванюк.

Именно риск появления ошибок называют главной причиной того, что генеративные алгоритмы не лишат журналистов работы.

«Если нейросеть не гарантирует достоверность, то новостников она точно не заменит, тем более через несколько лет. К тому же к новости надо подобрать правильное фото и придумать яркий заголовок (часто недостаточно просто правильно назвать фамилию человека и написать, что он сделал, чтобы привлечь читателя). Нейросети вряд ли научатся без ошибок делать это в 100% случаев. Так что нет, полностью новостников они не заменят в ближайшие годы», — заявила Эльвира Ондар. Она добавила, что шаблоны новостей могут готовить и компьютерные алгоритмы, но итог их работы нужно перепроверять.

По мнению Николая Подорванюка, нейросетям однозначно можно поручить перевод текстов на другие языки, типовые новости о прогнозе погоды, расписаниях и результатах спортивных матчей, которые в некоторых СМИ уже пишутся автоматически. Вот что еще, по его мнению, можно доверить ИИ: «Первичный поиск информации — да. Написать лонгрид — пока точно нет. Я же лично использую нейросети для создания договоров и описания технических заданий. Да, все тщательно проверяю, но экономия времени имеет место, а время — это самый ценный человеческий ресурс».

У применения искусственного интеллекта в журналистике есть и неожиданная сторона — споры об авторском праве. Руководитель направления «Разрешения It&Ip споров» юридической фирмы «Рустам Курмаев и партнеры» Ярослав Шицле рассказал о разных судебных прецедентах по этому вопросу. Иногда права на материалы признают за разработчиком ИИ — так было с китайским ботом Dreamrighter и нейросетью DABUS. А вот художникам в США удалось доказать, что Midjourney не создает собственные изображения, а занимается компиляцией их работ.

«Ни искусственный интеллект, ни животное, ни сложный механизм, ни даже лица, оказывающие техническую, финансовую и иную помощь, авторами не признаются, соответственно, нейросеть не может выступать субъектом авторского права», — отметил Шицле.

В роли правообладателя может выступать только пользователь-человек, который поставил задачу алгоритму. Однако, как в случае с Midjourney, нужно следить за тем, чтобы нейросети сами не нарушили чьих-то авторских прав.

«Как минимум половина юристов, специализирующихся на праве интеллектуальной собственности, придерживается мнения, что именно пользователю принадлежат права на объект, созданный с помощью ИИ, на любой объект: рисунок, программу, тексты и так далее. Только далеко не все пользователи ИИ осознают, что объекты, созданные с помощью ИИ, однозначно нарушают чьи-то права на переработку произведения. Так как для создания «новых» объектов алгоритм использует только то, на чем он прошел обучение», — прокомментировал Сергей Зуйков, патентный поверенный, управляющий партнер компании «Зуйков и партнеры».

Так что пока нет гарантии, что публичное использование ИИ не приведет к судебному иску. Но доказать переработку оригинального произведения пострадавшему от нарушения авторских прав будет сложно, ведь для этого она должна быть «достаточно очевидна и обоснована».

Чтобы избежать и обвинений в плагиате, и недостоверной информации, сохранив при этом легкий и понятный читателю стиль изложения, работу нейросетей-«корреспондентов» нужно тщательно проверять — а значит, спрос на квалифицированных редакторов и фактчекеров в ближайшем будущем может не только не уменьшиться, но и даже возрасти.

Но есть и другая сторона: избавляя от рутинного труда, нейросети могут оставить без работы стажеров, авторов самых простых новостей, рерайтеров (тех, кто переписывает тексты из других изданий) и, возможно, копирайтеров. Во-первых, журналистам и представителям смежных профессий придется освоить новый инструментарий, чтобы выполнять свою работу быстрее и эффективнее. Во-вторых, им уже сейчас нужно думать, в чем люди превосходят искусственный интеллект, и сделать ставку на развитие этих навыков.

Следите за событиями в сфере ИИ на национальном портале в сфере ИИ – ai.gov.ru.

«Искусственная журналистика»: как ИИ изменит правила игры в медиа

На заре новой эры

Как статью вы назовете, так она и поплывет

В каких отечественных СМИ работают нейросети-«корреспонденты»

Есть ли угроза для «человеческой» журналистики?

А автор кто?