Накопленные человечеством знания исчезают из-за «битых» ссылок — страдают даже научные статьи и документы

Почему интернет портится со временем и как решают проблему учёные и технологи, в пересказе колонки профессора права Джонатана Зиттрейна.

До интернета основным способом сохранить информацию было письмо: сначала её записывали на камне и папирусе, затем — на магнитных лентах и дискетах. Тогда «носители» хранились в церквях и библиотеках, в идеале — сразу в нескольких зданиях и не в одном экземпляре:

  • Во-первых, чтобы повреждение одной копии не уничтожило знание.
  • Во-вторых, чтобы копии можно было сравнить, если документ вдруг тайно изменят.

Интернет должен был упростить процесс: предложить глубокую систематизацию знаний, которые потом хранились бы в библиотеках, считает профессор.

Вместо этого децентрализованная сеть стала складом ссылок — как на канонические источники вроде научных и газетных статей, так и на множество личных файлов, блогов и публикаций.

Профессор права Джонатан Зиттрейн <p>Harvard Law Today, <span>Джон Чейс</span></p>
Профессор права Джонатан Зиттрейн

Harvard Law Today, Джон Чейс

Ссылки ведут не туда или вовсе «вымирают»

Чтобы помочь поисковым системам сортировать источники, разработчики создали поисковых роботов: они фиксируют каждую найденную ссылку, а затем составляют из них упорядоченные списки.

Источники, считает Зиттрейн, — это клей, скрепляющий знания человечества. Они позволяют перепроверить факты и узнать больше о том, что автор упоминает лишь вкратце.

Однако разорвать эту связь угрожают два явления — вымирание ссылок и «дрейф» контента, то есть его перемещение. Сталкиваются с этими проблемами в том числе и правительственные структуры.

В 2010 году 44-й президент США Барак Обама подписал Закон о доступном здравоохранении, однако в 2013 году республиканцы прекратили финансирование программы. Агентствам пришлось отключить ряд правительственных сайтов и вместе с этим закрыть доступ к миллиону официальных документов.

Такое сообщение видели тогда посетители страницы NASA: «Сайт приостановил работу в связи с прекращением финансирования со стороны федерального правительства. Приносим извинения за доставленные неудобства»
Такое сообщение видели тогда посетители страницы NASA: «Сайт приостановил работу в связи с прекращением финансирования со стороны федерального правительства. Приносим извинения за доставленные неудобства»

В 2010 году американский судья Сэмюэль Алито в качестве аргумента по делу о дурном влиянии видеоигр на подростков сослался на один из сайтов. Страница вскоре стала недоступной, а её содержимое намеренно изменили.

«Вы наверняка рады, что не сослались на эту страницу, как в своё время судья Алито. Нужного вам источника здесь бы уже не было, а домен бы выкупили, чтобы написать о том, как теперь недолговечны ссылки»
«Вы наверняка рады, что не сослались на эту страницу, как в своё время судья Алито. Нужного вам источника здесь бы уже не было, а домен бы выкупили, чтобы написать о том, как теперь недолговечны ссылки»

В 2014 году Зиттрейн изучил ссылки в тех документах, которые, по его мнению, должны храниться бессрочно — это научные статьи юридического журнала Harvard Law Review, а также судебные заключения Верховного суда США. 75% ссылок в Harvard Law Review и 50% источников в судебных заключениях не работали.

Зиттрейн также проанализировал около 2 млн глубоких ссылок в электронных статьях The New York Times — тех, что вели не на главные страницы сайтов, а на конкретные материалы. 25% из них «вымерли», а в материалах одного только 1998 года нерабочими оказалось сразу 72%.

В 2001 году учёные из Принстонского университета обнаружили, что в академических статьях, собранных с 1994 года, «мёртвыми» оказалось 53% URL-адресов. Через 13 лет они создали расширенный корпус из более чем 3,5 млн статей: каждая пятая вела на неверный источник, и в 2016 году доля таких ссылок составила 75%.

Бумажные копии создают всё реже, а цифровые удаляют, изменяют и цензурируют

Раньше физические документы считались оригиналами, а цифровые — дополнением. Именно с бумажными копиями сверялись студенты Гарварда при проверке цитат. Для этого университет хранил в библиотеках экземпляры разных законов и дел.

Однако в 2021-м разместить информацию в интернете легче и дешевле, чем создать и хранить её бумажные копии, пишет Зиттрейн. Поэтому университет разрешает студентам пользоваться отсканированными документами и всё чаще перевозит тома из библиотек в хранилища.

Библиотека Гарвардской школы права владеет уникальными документами — например, по Нюрнбергскому процессу. Чтобы сохранить и опубликовать их в открытом доступе, университет запустил многоэтапный проект по оцифровке

Только цифровые материалы не вечны, отмечает Зиттрейн. Теперь люди всё чаще читают книги на электронных устройствах — например, на Kindle компании Amazon, которая в любой момент может удалить купленную читателем книгу. Так она поступила в 2009 году с работой Джорджа Оруэлла «1984» — сторонняя фирма продавала её в обход авторских прав.

Информацию можно не только удалить, но и переиначить. До интернета единственным способом изменить содержание книги являлось переиздание. В цифровой же среде легко не только перевыпустить книгу, но и обновить уже опубликованную версию, пишет Зиттрейн.

Такая цифровая «податливость» может стать инструментом для давления и цензуры. А появление устройств вроде Kindle ставит под угрозу саму концепцию URL-ссылок, поскольку у книг из его библиотеки нет адресов, которые вели бы на веб-страницы.

Джонатан Зиттрейн

Если читатель сочтёт отрывок клеветническим или оскорбительным, то может подать на автора в суд или потребовать издательство внести правки. Для последнего не нужен даже иск: достаточно предать ситуацию огласке.

Так поступили читатели романа Элин Хилдербранд, героиня которого сравнивает лето, проведённое взаперти, с жизнью Анны Франк — та два года прожила в чердачном помещении во время Второй мировой войны.

Пользователи соцсетей назвали фрагмент антисемитским, после чего писательница попросила издательство немедленно удалить его из цифровой версии книги.

По словам автора, издатели порой даже не знают, как сильно и часто правят электронные книги после публикации.

В начале 2000-х годов Зиттрейн участвовал в создании проекта Lumen: он собирает запросы на удаление контента от различных организаций — начиная от университетов и заканчивая «Википедией», Twitter и Google.

Lumen фиксирует не только автора и текст требований, но также и характер изменений. Те же Amazon и YouTube подобную информацию не разглашают. Благодаря его базе профессор права Евгений Волох обнаружил целую серию мошеннических запросов: почти 200 из 700 судебных постановлений, на которые ссылались «пострадавшие», оказались поддельными.

Позже компания, регулярно отправлявшая фальшивые приказы в Google, получила иск от генпрокурора штата Техас.

Ответственность за сохранность контента стала общей и ничьей одновременно

Успех архитектуры интернета Зиттрейн связывает с «принципом прокрастинации»: согласно ему, задачи, которые стоят сейчас перед интернетом, смогут решить её же пользователи в будущем.

Профессор права Джонатан Зиттрейн Jonathan Zittrain
Профессор права Джонатан Зиттрейн Jonathan Zittrain

Им руководствовались основатели «Википедии» — они создали открытую энциклопедию и позволили людям свободно создавать и редактировать статьи. Такая свобода не защищала сервис от спам-атак и неверных правок. Однако сообщество со временем научилось бороться с недобросовестными пользователями.

Если бы создатели внедрили модерацию сразу, то, возможно, оттолкнули бы энтузиастов, которые заложили основу сайта, считает Зиттрейн.

Так же размышлял создатель Всемирной паутины Тим Бернерс-Ли: он не собирался проверять новые сайты или прописывать правила для их создания. И то, что сайты будут удалять, а страницы — изменять, было особенностью интернета, а не ошибкой в её архитектуре.

Однако именно это подрывает миссию, о которой когда-то говорила Google. «Структурировать знания всего мира и сделать их универсально доступными» не так просто, поскольку источники этих «знаний» легко изменить или уничтожить, полагает Зиттрейн.

Создатель Всемирной паутины Тим Бернерс-Ли Financial Times
Создатель Всемирной паутины Тим Бернерс-Ли Financial Times

Как исследователи пытаются сохранить источники

Решить проблему пытался компьютерный технолог Брюстер Кейл. В 1996 году Кейл основал некоммерческую организацию «Архив Интернета», где разработал сервис Wayback Machine: он сохранял содержимое веб-страниц и предоставлял доступ к ним даже после удаления.

Несмотря на то, что хранить удалённый контент не всегда законно, Кейл верил, что делает значимое для человечества дело, пишет Зиттрейн. По словам самого Зиттрейна, деятельность сервисов вроде Wayback Machine следует поддерживать в том числе и государственными субсидиями.

Скриншот сайта Wayback Machine
Скриншот сайта Wayback Machine

Таким «веб-скрейпингом» активно занимаются и другие компании. Например, Clearview: она собрала миллиарды фотографий из социальных сетей Facebook, LinkedIn и Instagram и создала систему распознавания лиц на основе искусственного интеллекта.

В свою очередь, исследователи из Центра Беркмана по изучению интернета и общества разработали сервис Amber. Его плагин копирует страницы и позволяет пользователям зайти на их сохранённую версию, если основной сайт подвергся DDoS-атаке или вышел из строя. Похожая функция есть и у Google: браузер открывает кэшированную копию страницы.

Скриншот сервиса Amber
Скриншот сервиса Amber

В 2020 году «Архив Интернета» также объявил о партнёрстве с компанией по защите от кибератак Cloudflare — вместе они создадут программу «Всегда онлайн». Если сайт-участник станет недоступен для Cloudflare, то его копия откроется из архива Wayback Machine.

Правда, и у этого подхода есть недостатки, отмечает Зиттрейн. Авторы судебных заключений и научных статей чаще всего ссылаются на конкретные фрагменты исходника. А если страницу изменят, тем более тайно, то копия её вариации за 2017 год, возможно, будет неактуальна в 2021.

Сам Зиттрейн вместе с исследователями гарвардской лаборатории инноваций создал платформу Perma. Учёные и судьи могут попросить Perma преобразовать указанные ими ссылки в постоянные. Располагаться они будут на perma.cc, а скриншоты страниц будут бессрочно хранить участвующие в проекте библиотеки — на сегодня их более 150.

«Perma — лёгкий способ сохранить ссылки. Добавь URL-адрес, создай «постоянную» ссылку на Perma и ссылайся на неё когда угодно».
«Perma — лёгкий способ сохранить ссылки. Добавь URL-адрес, создай «постоянную» ссылку на Perma и ссылайся на неё когда угодно».

Четверо учёных развили идею Зиттрейна и выпустили сервис Robustify, который позволяет включать в одну ссылку сразу несколько адресов — на действующую страницу и её архивную копию.

Robust создаёт два варианта ссылок: одна ведёт на действующий сайт, а другая — на архивную версию
Robust создаёт два варианта ссылок: одна ведёт на действующий сайт, а другая — на архивную версию

Изменения нужно фиксировать независимо от их характера

Возможность быстро изменить содержание публикаций — заманчивая практика, признаёт Зиттрейн. Исправить неточности в указах пытался даже Верховный суд США. Поэтому проблему цифровой «податливости», по его мнению, нужно решать на уровне не только технологий, но и закона:

  • Судам — реже одобрять правки, тем более если их вносят без предупреждения читателей.
  • Издатели должны чаще противостоять давлению общественности и не менять содержание без постановления суда.

Некоторые исправления не следует разглашать публично, считает автор: например, если нужно удалить контактную информацию, которой пользуются злоумышленники. Или если пользователь ссылается на «право о забвении».

Например, Google не раскрывает такие запросы сервису Lumen — чтобы общественность не увидела материал, который, по мнению европейских властей, подрывает чью-либо репутацию.

Однако даже эти изменения должны фиксироваться — в специальных базах, которые будут недоступны широкой публике, но зато помогут исследователям понять, как пользуются инструментами цензуры государство и общественность. Только так, считает автор, человечество сможет увидеть, где и когда оступилось, и понять, куда хочет двигаться в будущем.

Лекция Зиттрейна о том, какое влияние имеют алгоритмы: почему человек считает поисковик «инструментом», а соцсеть «другом», и о мире, в котором учёные при написании трудов ориентировались бы на потенциальную реакцию читателей
6363
11
46 комментариев

Тема давняя и печальная (статья 2014 года): https://core-rpg.net/articles/gameindustry/misc/page_not_found_video_games_vanishing_history

Когда не так давно гулял по ссылкам на источники переведённых мной 10 лет назад статей, от 30 до 50 процентов вели в никуда. Либо сайтов тех давно нет, либо статей по ссылкам. Кое-что можно найти на ВебАрхивах, но не всё.

19

А сколько исчезает знаний,  у которых никогда не было ссылок. Самое время запилить блокчейн знаний. Хотя делиться знаниями в наше время стало опасно. Могут неправильно понять.

10

Такое уже запилено и называется оно inter planetary file system(ipfs) https://www.opennet.ru/opennews/art.shtml?num=55399

И есть Filecoin эталонная реализация системы где можно намайнить себе дискового пространства, базирующаяся на этом ipfs https://www.opennet.ru/opennews/art.shtml?num=55421

Filecoin даёт возможность пользователям, у которых имеется неиспользуемое дисковое пространство, за определённое вознаграждение предоставить его сети, а пользователям, которым нужно место для хранения, купить его. Если необходимость в месте исчезла, пользователь может продать его. Таким образом формируется рынок места в хранилище, расчёты в котором производятся в токенах Filecoin, образуемых при помощи майнинга.

11

Ну и далее: "И если все принимают ложь, навязанную партией, если во всех документах одна и та же песня, тогда эта ложь поселяется в истории и становится правдой. «Кто управляет прошлым, – гласит партийный лозунг, – тот управляет будущим; кто управляет настоящим, тот управляет прошлым»"

3

Блокчейн именно то что нужно! Только вот сильные мира сего скорее будут против этой технологии - "НЕЗНАНИЕ — СИЛА" (1984).

4

Самое время запилить блокчейн знаний

Git

А с этими вашими телеграмами и вотсапами вообще полная задница настает связности интернета.

11