Накопленные человечеством знания исчезают из-за «битых» ссылок — страдают даже научные статьи и документы Статьи редакции

Почему интернет портится со временем и как решают проблему учёные и технологи, в пересказе колонки профессора права Джонатана Зиттрейна.

До интернета основным способом сохранить информацию было письмо: сначала её записывали на камне и папирусе, затем — на магнитных лентах и дискетах. Тогда «носители» хранились в церквях и библиотеках, в идеале — сразу в нескольких зданиях и не в одном экземпляре:

  • Во-первых, чтобы повреждение одной копии не уничтожило знание.
  • Во-вторых, чтобы копии можно было сравнить, если документ вдруг тайно изменят.

Интернет должен был упростить процесс: предложить глубокую систематизацию знаний, которые потом хранились бы в библиотеках, считает профессор.

Вместо этого децентрализованная сеть стала складом ссылок — как на канонические источники вроде научных и газетных статей, так и на множество личных файлов, блогов и публикаций.

Профессор права Джонатан Зиттрейн

Harvard Law Today, Джон Чейс

Ссылки ведут не туда или вовсе «вымирают»

Чтобы помочь поисковым системам сортировать источники, разработчики создали поисковых роботов: они фиксируют каждую найденную ссылку, а затем составляют из них упорядоченные списки.

Источники, считает Зиттрейн, — это клей, скрепляющий знания человечества. Они позволяют перепроверить факты и узнать больше о том, что автор упоминает лишь вкратце.

Однако разорвать эту связь угрожают два явления — вымирание ссылок и «дрейф» контента, то есть его перемещение. Сталкиваются с этими проблемами в том числе и правительственные структуры.

В 2010 году 44-й президент США Барак Обама подписал Закон о доступном здравоохранении, однако в 2013 году республиканцы прекратили финансирование программы. Агентствам пришлось отключить ряд правительственных сайтов и вместе с этим закрыть доступ к миллиону официальных документов.

Такое сообщение видели тогда посетители страницы NASA: «Сайт приостановил работу в связи с прекращением финансирования со стороны федерального правительства. Приносим извинения за доставленные неудобства»

В 2010 году американский судья Сэмюэль Алито в качестве аргумента по делу о дурном влиянии видеоигр на подростков сослался на один из сайтов. Страница вскоре стала недоступной, а её содержимое намеренно изменили.

«Вы наверняка рады, что не сослались на эту страницу, как в своё время судья Алито. Нужного вам источника здесь бы уже не было, а домен бы выкупили, чтобы написать о том, как теперь недолговечны ссылки»

В 2014 году Зиттрейн изучил ссылки в тех документах, которые, по его мнению, должны храниться бессрочно — это научные статьи юридического журнала Harvard Law Review, а также судебные заключения Верховного суда США. 75% ссылок в Harvard Law Review и 50% источников в судебных заключениях не работали.

Зиттрейн также проанализировал около 2 млн глубоких ссылок в электронных статьях The New York Times — тех, что вели не на главные страницы сайтов, а на конкретные материалы. 25% из них «вымерли», а в материалах одного только 1998 года нерабочими оказалось сразу 72%.

В 2001 году учёные из Принстонского университета обнаружили, что в академических статьях, собранных с 1994 года, «мёртвыми» оказалось 53% URL-адресов. Через 13 лет они создали расширенный корпус из более чем 3,5 млн статей: каждая пятая вела на неверный источник, и в 2016 году доля таких ссылок составила 75%.

Бумажные копии создают всё реже, а цифровые удаляют, изменяют и цензурируют

Раньше физические документы считались оригиналами, а цифровые — дополнением. Именно с бумажными копиями сверялись студенты Гарварда при проверке цитат. Для этого университет хранил в библиотеках экземпляры разных законов и дел.

Однако в 2021-м разместить информацию в интернете легче и дешевле, чем создать и хранить её бумажные копии, пишет Зиттрейн. Поэтому университет разрешает студентам пользоваться отсканированными документами и всё чаще перевозит тома из библиотек в хранилища.

Библиотека Гарвардской школы права владеет уникальными документами — например, по Нюрнбергскому процессу. Чтобы сохранить и опубликовать их в открытом доступе, университет запустил многоэтапный проект по оцифровке

Только цифровые материалы не вечны, отмечает Зиттрейн. Теперь люди всё чаще читают книги на электронных устройствах — например, на Kindle компании Amazon, которая в любой момент может удалить купленную читателем книгу. Так она поступила в 2009 году с работой Джорджа Оруэлла «1984» — сторонняя фирма продавала её в обход авторских прав.

Информацию можно не только удалить, но и переиначить. До интернета единственным способом изменить содержание книги являлось переиздание. В цифровой же среде легко не только перевыпустить книгу, но и обновить уже опубликованную версию, пишет Зиттрейн.

Такая цифровая «податливость» может стать инструментом для давления и цензуры. А появление устройств вроде Kindle ставит под угрозу саму концепцию URL-ссылок, поскольку у книг из его библиотеки нет адресов, которые вели бы на веб-страницы.

Джонатан Зиттрейн

Если читатель сочтёт отрывок клеветническим или оскорбительным, то может подать на автора в суд или потребовать издательство внести правки. Для последнего не нужен даже иск: достаточно предать ситуацию огласке.

Так поступили читатели романа Элин Хилдербранд, героиня которого сравнивает лето, проведённое взаперти, с жизнью Анны Франк — та два года прожила в чердачном помещении во время Второй мировой войны.

Пользователи соцсетей назвали фрагмент антисемитским, после чего писательница попросила издательство немедленно удалить его из цифровой версии книги.

По словам автора, издатели порой даже не знают, как сильно и часто правят электронные книги после публикации.

В начале 2000-х годов Зиттрейн участвовал в создании проекта Lumen: он собирает запросы на удаление контента от различных организаций — начиная от университетов и заканчивая «Википедией», Twitter и Google.

Lumen фиксирует не только автора и текст требований, но также и характер изменений. Те же Amazon и YouTube подобную информацию не разглашают. Благодаря его базе профессор права Евгений Волох обнаружил целую серию мошеннических запросов: почти 200 из 700 судебных постановлений, на которые ссылались «пострадавшие», оказались поддельными.

Позже компания, регулярно отправлявшая фальшивые приказы в Google, получила иск от генпрокурора штата Техас.

Ответственность за сохранность контента стала общей и ничьей одновременно

Успех архитектуры интернета Зиттрейн связывает с «принципом прокрастинации»: согласно ему, задачи, которые стоят сейчас перед интернетом, смогут решить её же пользователи в будущем.

Профессор права Джонатан Зиттрейн Jonathan Zittrain

Им руководствовались основатели «Википедии» — они создали открытую энциклопедию и позволили людям свободно создавать и редактировать статьи. Такая свобода не защищала сервис от спам-атак и неверных правок. Однако сообщество со временем научилось бороться с недобросовестными пользователями.

Если бы создатели внедрили модерацию сразу, то, возможно, оттолкнули бы энтузиастов, которые заложили основу сайта, считает Зиттрейн.

Так же размышлял создатель Всемирной паутины Тим Бернерс-Ли: он не собирался проверять новые сайты или прописывать правила для их создания. И то, что сайты будут удалять, а страницы — изменять, было особенностью интернета, а не ошибкой в её архитектуре.

Однако именно это подрывает миссию, о которой когда-то говорила Google. «Структурировать знания всего мира и сделать их универсально доступными» не так просто, поскольку источники этих «знаний» легко изменить или уничтожить, полагает Зиттрейн.

Создатель Всемирной паутины Тим Бернерс-Ли Financial Times

Как исследователи пытаются сохранить источники

Решить проблему пытался компьютерный технолог Брюстер Кейл. В 1996 году Кейл основал некоммерческую организацию «Архив Интернета», где разработал сервис Wayback Machine: он сохранял содержимое веб-страниц и предоставлял доступ к ним даже после удаления.

Несмотря на то, что хранить удалённый контент не всегда законно, Кейл верил, что делает значимое для человечества дело, пишет Зиттрейн. По словам самого Зиттрейна, деятельность сервисов вроде Wayback Machine следует поддерживать в том числе и государственными субсидиями.

Скриншот сайта Wayback Machine

Таким «веб-скрейпингом» активно занимаются и другие компании. Например, Clearview: она собрала миллиарды фотографий из социальных сетей Facebook, LinkedIn и Instagram и создала систему распознавания лиц на основе искусственного интеллекта.

В свою очередь, исследователи из Центра Беркмана по изучению интернета и общества разработали сервис Amber. Его плагин копирует страницы и позволяет пользователям зайти на их сохранённую версию, если основной сайт подвергся DDoS-атаке или вышел из строя. Похожая функция есть и у Google: браузер открывает кэшированную копию страницы.

Скриншот сервиса Amber

В 2020 году «Архив Интернета» также объявил о партнёрстве с компанией по защите от кибератак Cloudflare — вместе они создадут программу «Всегда онлайн». Если сайт-участник станет недоступен для Cloudflare, то его копия откроется из архива Wayback Machine.

Правда, и у этого подхода есть недостатки, отмечает Зиттрейн. Авторы судебных заключений и научных статей чаще всего ссылаются на конкретные фрагменты исходника. А если страницу изменят, тем более тайно, то копия её вариации за 2017 год, возможно, будет неактуальна в 2021.

Сам Зиттрейн вместе с исследователями гарвардской лаборатории инноваций создал платформу Perma. Учёные и судьи могут попросить Perma преобразовать указанные ими ссылки в постоянные. Располагаться они будут на perma.cc, а скриншоты страниц будут бессрочно хранить участвующие в проекте библиотеки — на сегодня их более 150.

«Perma — лёгкий способ сохранить ссылки. Добавь URL-адрес, создай «постоянную» ссылку на Perma и ссылайся на неё когда угодно».

Четверо учёных развили идею Зиттрейна и выпустили сервис Robustify, который позволяет включать в одну ссылку сразу несколько адресов — на действующую страницу и её архивную копию.

Robust создаёт два варианта ссылок: одна ведёт на действующий сайт, а другая — на архивную версию

Изменения нужно фиксировать независимо от их характера

Возможность быстро изменить содержание публикаций — заманчивая практика, признаёт Зиттрейн. Исправить неточности в указах пытался даже Верховный суд США. Поэтому проблему цифровой «податливости», по его мнению, нужно решать на уровне не только технологий, но и закона:

  • Судам — реже одобрять правки, тем более если их вносят без предупреждения читателей.
  • Издатели должны чаще противостоять давлению общественности и не менять содержание без постановления суда.

Некоторые исправления не следует разглашать публично, считает автор: например, если нужно удалить контактную информацию, которой пользуются злоумышленники. Или если пользователь ссылается на «право о забвении».

Например, Google не раскрывает такие запросы сервису Lumen — чтобы общественность не увидела материал, который, по мнению европейских властей, подрывает чью-либо репутацию.

Однако даже эти изменения должны фиксироваться — в специальных базах, которые будут недоступны широкой публике, но зато помогут исследователям понять, как пользуются инструментами цензуры государство и общественность. Только так, считает автор, человечество сможет увидеть, где и когда оступилось, и понять, куда хочет двигаться в будущем.

Лекция Зиттрейна о том, какое влияние имеют алгоритмы: почему человек считает поисковик «инструментом», а соцсеть «другом», и о мире, в котором учёные при написании трудов ориентировались бы на потенциальную реакцию читателей
0
46 комментариев
Написать комментарий...
Владимир Чижевский

Тема давняя и печальная (статья 2014 года): https://core-rpg.net/articles/gameindustry/misc/page_not_found_video_games_vanishing_history

Когда не так давно гулял по ссылкам на источники переведённых мной 10 лет назад статей, от 30 до 50 процентов вели в никуда. Либо сайтов тех давно нет, либо статей по ссылкам. Кое-что можно найти на ВебАрхивах, но не всё.

Ответить
Развернуть ветку
Сергей Никитин

А сколько исчезает знаний,  у которых никогда не было ссылок. Самое время запилить блокчейн знаний. Хотя делиться знаниями в наше время стало опасно. Могут неправильно понять.

Ответить
Развернуть ветку
Андрей Гуртовой

Такое уже запилено и называется оно inter planetary file system(ipfs) https://www.opennet.ru/opennews/art.shtml?num=55399

И есть Filecoin эталонная реализация системы где можно намайнить себе дискового пространства, базирующаяся на этом ipfs https://www.opennet.ru/opennews/art.shtml?num=55421

Filecoin даёт возможность пользователям, у которых имеется неиспользуемое дисковое пространство, за определённое вознаграждение предоставить его сети, а пользователям, которым нужно место для хранения, купить его. Если необходимость в месте исчезла, пользователь может продать его. Таким образом формируется рынок места в хранилище, расчёты в котором производятся в токенах Filecoin, образуемых при помощи майнинга.
Ответить
Развернуть ветку
Andrey Sadov

Ну и далее: "И если все принимают ложь, навязанную партией, если во всех документах одна и та же песня, тогда эта ложь поселяется в истории и становится правдой. «Кто управляет прошлым, – гласит партийный лозунг, – тот управляет будущим; кто управляет настоящим, тот управляет прошлым»"

Ответить
Развернуть ветку
Слава Коженевский

Так истории не существует. Существует сотни трактовок событий, которые когда-то были. Мнение, что можно претендовать на объективность в исторической науке заблуждение. 
Исторические трактовки создавали "победители" или "аппозиция", каждый трактует факт в свою пользу или просто-напросто выдумывает факты.
Например, факт "Представители России встретились с  представителями Талибан в Москве".
Спустя какое-то время, у этого события будет много трактовок. Одни историки будут ссылаться на стенограмму и протокол и говорить, что это мирные переговоры, с целью снижения напряженности в регионе. 
Другие историки изучат твиттер, и выяснят что "Путин вступил в заговор с террористами против американцев, а протокол это просто для прикрытия". 
Еще часть историков, изучат скрытные документы и инсайдерскую информацию Американцев и выяснят, что "Российские власти и Американские, придумали многоходовочку для наведения порядка в Афганистане."
И потом каждый историк будет трактовать это событие в свою пользу, в зависимости от того, в каком свете он хочет выставить этот исторический период. 
Переписывание истории это древняя традиция, как минимум еще с библии. Так что париться по этому поводу вообще не имеет смысла. 

Ответить
Развернуть ветку
Andrey Sadov

Блокчейн именно то что нужно! Только вот сильные мира сего скорее будут против этой технологии - "НЕЗНАНИЕ — СИЛА" (1984).

Ответить
Развернуть ветку
Louis Cyphre

Контент пропадает, потому что его хранение стоит денег. Хоть в блокчейне, хоть где. Издержки использования блокчейна для хранения контента на порядки выше, чем издержки использования классического веб-сервера, поэтому твоё утверждение — такая же абсурдная пропаганда. Минус с твоего комментария убрал, раз он мешает тебе полноценно пользоваться vc. Не думаю что тебе следует удалять свой комментарий, просто впредь пользуйся логикой и калькулятором.

Ответить
Развернуть ветку
Andrey Sadov

Извините, но Вы про Фому, а я про Ерёму. Конечно же блокчейн дороже веб-сервера, но я-то написал про то, что есть люди заинтересованные, чтобы определённый контент исчезал. Это не о стоимости хранения.

Ответить
Развернуть ветку
Louis Cyphre

Не извиню. Как это доказывает, что блокчейн это именно то, что нужно? Кто за банкет будет платить?

Ответить
Развернуть ветку
Аргумент Перигелия

Есть технология. Она работает. Но стоит денег. Это уже вопрос к обществу: готово оно платить за технологию и сервис или нет.

Ответить
Развернуть ветку
Louis Cyphre

Точно работает? Ну ладно, заливаем туда 50 000 ТБ данных из вебархива и ты не сможешь даже проверить этот блокчейн, проверка умрёт ещё на уровне пропускной способности твоей сети, про диск молчу. Общество за хостинг не готово платить, а ты предлагаешь прикрутить блокчейн к хостингу и платить на порядки больше, не получая никаких дополнительных выгод.

Ответить
Развернуть ветку
Аргумент Перигелия

Ну так и я про то же: общество даже за хостинг платить не готово 🤷‍♂️

Ответить
Развернуть ветку
Artem Petrenkov
Самое время запилить блокчейн знаний

Git

Ответить
Развернуть ветку
Аргумент Перигелия

Тоже о нем сразу подумал 🤔

Ответить
Развернуть ветку
Андрей Гуртовой

ipfs — всё давно итак придумано(недавно)

Ответить
Развернуть ветку
Kinolog

А с этими вашими телеграмами и вотсапами вообще полная задница настает связности интернета.

Ответить
Развернуть ветку
Аргумент Перигелия

Там ничего ценного нет 🤷‍♂️

Ответить
Развернуть ветку
Тофсла, Вифсла и партнёры

Почему "исчезают"? Они не исчезают, а исчезают ссылки на них. "Что попадает в интернет, остается в интернете", копия всего где-то да остается.

Ответить
Развернуть ветку
Дмитрий Гладышев

Ну удалю я какую-нибудь статью со своего сайта - всё, её больше нет. А если закрыть доступ 403 редиректом, то вроде даже webarchive уже не покажет проиндексированную статью.

Ответить
Развернуть ветку
Тофсла, Вифсла и партнёры

"не покажет" != "удалит".

Ответить
Развернуть ветку
Кека Пека

здравствуйте, вы случайно не в госдуме работаете?

Ответить
Развернуть ветку
Я не скажу свое имя машине

Если на переменную не остаётся ни одной ссылки - она потеряна

Ответить
Развернуть ветку
Тофсла, Вифсла и партнёры

Хорошо, что знания не переменная.

Ответить
Развернуть ветку
Я не скажу свое имя машине

'Переменная' в терминах ЯП.
Если нет ни одного пути добраться до 'знаний', то их нет, все. 
В некотором роде вебархив иногда остаётся той самой последней ссылкой

Ответить
Развернуть ветку
Арсений Зябликов

Завис на пару секунд гадая причём тут ЯПлакалЬ. И это особо печально так как я вообще-то по первому образованию программист

Ответить
Развернуть ветку
Я не скажу свое имя машине

Вот второе предложение  действительно печально. Хорошо, что у вас есть какое-то другое образование -)
Тут достаточно простой логики. Ей в хорошей школе в 3-ем классе учат, в плохой - наверное, в классе 11-ом? -) 

Ответить
Развернуть ветку
Арсений Зябликов

А вы интересный человек и выводы далеко идущие из шуточных комментариев делаете. Вы точно хорошо усвоили школьный курс логики в своей хорошей школе? Давайте разверну свою мысль: общеупотребительное и более привычное значение аббревиатуры ЯП на общетематических сайтах рунета - паблик вторичных шуток ЯПлакалЬ. Сокращение ЯП для языков программирования я в последний раз встречал в середине нулевых, наверное.

Ответить
Развернуть ветку
Я не скажу свое имя машине

Теперь вот понятно, шутку не распознал - (
Не очень, правда, понял как логика связывает ЯП с названием дегенеративного сайта для имбецилов, но спасибо, что восполнили мои знания -) 

Ответить
Развернуть ветку
Тофсла, Вифсла и партнёры
 'Переменная' в терминах ЯП.

Я понял. За это я и не люблю аналогии. 

Ответить
Развернуть ветку
Аргумент Перигелия

Если на переменную не остаётся ни одной ссылки - это memory leak 🤔

Ответить
Развернуть ветку
Я не скажу свое имя машине

Конечно -) 

Ответить
Развернуть ветку
Андрей Гуртовой

Мемори леак это наоборот когда ссылки есть из глобальной области но не используются потому что про них забыли. И ещё эти ссылки могут неконтролируемо появляться. Отсюда появляются данные в памяти которые встроенные механизмы не могут очистить.

Ответить
Развернуть ветку
Дмитрий Гладышев

Python так не считает)

Ответить
Развернуть ветку
Аргумент Перигелия

Python надеется на GC 🤷‍♂️

Ответить
Развернуть ветку
Андрей Гуртовой

То в языках с garbage-коллектором, в остальных всё есть, просто надо распарить память и найти)

Ответить
Развернуть ветку
Я не скажу свое имя машине

Сейчас бы распарсить весь Интернет... -) 

Ответить
Развернуть ветку
Artem Petrenkov

Не на переменную, а на объект.

Ответить
Развернуть ветку
Я не скажу свое имя машине

Ну понятно же о чем я говорил -) 

Ответить
Развернуть ветку
Kelerius

А потом приходит сборщик мусора...

Ответить
Развернуть ветку
Хлоргексидин

Блокчейн, блокчейн, блокчейн

Ответить
Развернуть ветку
Андрей Гуртовой

Кажется автор не очень в курсе о существовании archive.org , расходимся

Ответить
Развернуть ветку
Наталья Кожевникова

Это вы не в курсе, что wayback machine и есть archive.org. Ну или статью не читали

Ответить
Развернуть ветку
Андрей Гуртовой

Я действительно не каждое слово читал. Но отдельно вейбэк машине в статье не искал. Потому что это часть archive org.

Предлагаемые в статье решения неминуемо столкнутся с отсутствием финансирования в будущем, и не смогут выжить. 

Посмотрите через десять лет кто из них выживет.  Я вам могу сказать наперёд, что никто из этих.

Поэтому я и не люблю статьи в таком стиле.  Ничего для меня нового не открыли.. Какие-то стартапы коммерческие, без внятного плана хотя бы на 5 лет вперёд.  Но эта вещь должна работать десятилетиями. Понимаете о чём я?

Судя по статистике, ТОЛЬКО сообщество свободного программного обеспечения способно на такие долгосрочные проекты, остальное это лишь временное

Ответить
Развернуть ветку
Наталья Кожевникова

Я считаю, что такие статьи рассказывают широкой общественности про проблему. Это вызывает обсуждения, рост количества решений, и в конечном итоге получается что-то успешное как свободное ПО. Почитайте, как лет 20 назад выглядела идея свободного ПО и оцените путь.

Ответить
Развернуть ветку
Pavel Giorgobiany

Привет, блокчейн.

Ответить
Развернуть ветку
Stanislav Martyushev

Тема сохранения и систематизации знаний может оказаться куда занимательнее и глобальнее  ))

"Кто надо" уже сегодня вполне может создавать свою версию "выверенного интернета" (глобальной энциклопедии).

Первая скромная попытка осмысления вопроса: 
      "Wikipedia" = "Encyclopedia Galactica" ?
      https://aftershock.news/?q=node/993267

(Вот только не надо извечного бреда в последующих комментах про "конспирологию"; ибо сказано: всё, что желаете спрятать - кладите на самом видном месте!
если содержательно вам нечего сказать - поберегите и своё, и моё время)

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
43 комментария
Раскрывать всегда