{"id":7297,"title":"\u0417\u0430\u043a\u0430\u0442\u0438\u043b\u0438 \u0432\u0435\u0447\u0435\u0440\u0438\u043d\u043a\u0443 vc.ru. \u0420\u0430\u0441\u0441\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u043c \u0438 \u043f\u043e\u043a\u0430\u0437\u044b\u0432\u0430\u0435\u043c, \u043a\u0430\u043a \u044d\u0442\u043e \u0431\u044b\u043b\u043e","url":"\/redirect?component=advertising&id=7297&url=https:\/\/vc.ru\/promo\/300923-proveli-vecherinku-vc-ru-i-sdelali-ofis-uyutney-s-pomoshchyu-novogo-servisa-ot-ozon&placeBit=1&hash=1786c9dcf11a3b054c8e53004e27074664313ed4055e24064ede059ebc186db8","isPaidAndBannersEnabled":false}
Будущее
Полина Лааксо

Накопленные человечеством знания исчезают из-за «битых» ссылок — страдают даже научные статьи и документы Статьи редакции

Почему интернет портится со временем и как решают проблему учёные и технологи, в пересказе колонки профессора права Джонатана Зиттрейна.

До интернета основным способом сохранить информацию было письмо: сначала её записывали на камне и папирусе, затем — на магнитных лентах и дискетах. Тогда «носители» хранились в церквях и библиотеках, в идеале — сразу в нескольких зданиях и не в одном экземпляре:

  • Во-первых, чтобы повреждение одной копии не уничтожило знание.
  • Во-вторых, чтобы копии можно было сравнить, если документ вдруг тайно изменят.

Интернет должен был упростить процесс: предложить глубокую систематизацию знаний, которые потом хранились бы в библиотеках, считает профессор.

Вместо этого децентрализованная сеть стала складом ссылок — как на канонические источники вроде научных и газетных статей, так и на множество личных файлов, блогов и публикаций.

Профессор права Джонатан Зиттрейн

Harvard Law Today, Джон Чейс

Ссылки ведут не туда или вовсе «вымирают»

Чтобы помочь поисковым системам сортировать источники, разработчики создали поисковых роботов: они фиксируют каждую найденную ссылку, а затем составляют из них упорядоченные списки.

Источники, считает Зиттрейн, — это клей, скрепляющий знания человечества. Они позволяют перепроверить факты и узнать больше о том, что автор упоминает лишь вкратце.

Однако разорвать эту связь угрожают два явления — вымирание ссылок и «дрейф» контента, то есть его перемещение. Сталкиваются с этими проблемами в том числе и правительственные структуры.

В 2010 году 44-й президент США Барак Обама подписал Закон о доступном здравоохранении, однако в 2013 году республиканцы прекратили финансирование программы. Агентствам пришлось отключить ряд правительственных сайтов и вместе с этим закрыть доступ к миллиону официальных документов.

Такое сообщение видели тогда посетители страницы NASA: «Сайт приостановил работу в связи с прекращением финансирования со стороны федерального правительства. Приносим извинения за доставленные неудобства»

В 2010 году американский судья Сэмюэль Алито в качестве аргумента по делу о дурном влиянии видеоигр на подростков сослался на один из сайтов. Страница вскоре стала недоступной, а её содержимое намеренно изменили.

«Вы наверняка рады, что не сослались на эту страницу, как в своё время судья Алито. Нужного вам источника здесь бы уже не было, а домен бы выкупили, чтобы написать о том, как теперь недолговечны ссылки»

В 2014 году Зиттрейн изучил ссылки в тех документах, которые, по его мнению, должны храниться бессрочно — это научные статьи юридического журнала Harvard Law Review, а также судебные заключения Верховного суда США. 75% ссылок в Harvard Law Review и 50% источников в судебных заключениях не работали.

Зиттрейн также проанализировал около 2 млн глубоких ссылок в электронных статьях The New York Times — тех, что вели не на главные страницы сайтов, а на конкретные материалы. 25% из них «вымерли», а в материалах одного только 1998 года нерабочими оказалось сразу 72%.

В 2001 году учёные из Принстонского университета обнаружили, что в академических статьях, собранных с 1994 года, «мёртвыми» оказалось 53% URL-адресов. Через 13 лет они создали расширенный корпус из более чем 3,5 млн статей: каждая пятая вела на неверный источник, и в 2016 году доля таких ссылок составила 75%.

Бумажные копии создают всё реже, а цифровые удаляют, изменяют и цензурируют

Раньше физические документы считались оригиналами, а цифровые — дополнением. Именно с бумажными копиями сверялись студенты Гарварда при проверке цитат. Для этого университет хранил в библиотеках экземпляры разных законов и дел.

Однако в 2021-м разместить информацию в интернете легче и дешевле, чем создать и хранить её бумажные копии, пишет Зиттрейн. Поэтому университет разрешает студентам пользоваться отсканированными документами и всё чаще перевозит тома из библиотек в хранилища.

Библиотека Гарвардской школы права владеет уникальными документами — например, по Нюрнбергскому процессу. Чтобы сохранить и опубликовать их в открытом доступе, университет запустил многоэтапный проект по оцифровке

Только цифровые материалы не вечны, отмечает Зиттрейн. Теперь люди всё чаще читают книги на электронных устройствах — например, на Kindle компании Amazon, которая в любой момент может удалить купленную читателем книгу. Так она поступила в 2009 году с работой Джорджа Оруэлла «1984» — сторонняя фирма продавала её в обход авторских прав.

Информацию можно не только удалить, но и переиначить. До интернета единственным способом изменить содержание книги являлось переиздание. В цифровой же среде легко не только перевыпустить книгу, но и обновить уже опубликованную версию, пишет Зиттрейн.

Такая цифровая «податливость» может стать инструментом для давления и цензуры. А появление устройств вроде Kindle ставит под угрозу саму концепцию URL-ссылок, поскольку у книг из его библиотеки нет адресов, которые вели бы на веб-страницы.

Джонатан Зиттрейн

Если читатель сочтёт отрывок клеветническим или оскорбительным, то может подать на автора в суд или потребовать издательство внести правки. Для последнего не нужен даже иск: достаточно предать ситуацию огласке.

Так поступили читатели романа Элин Хилдербранд, героиня которого сравнивает лето, проведённое взаперти, с жизнью Анны Франк — та два года прожила в чердачном помещении во время Второй мировой войны.

Пользователи соцсетей назвали фрагмент антисемитским, после чего писательница попросила издательство немедленно удалить его из цифровой версии книги.

По словам автора, издатели порой даже не знают, как сильно и часто правят электронные книги после публикации.

В начале 2000-х годов Зиттрейн участвовал в создании проекта Lumen: он собирает запросы на удаление контента от различных организаций — начиная от университетов и заканчивая «Википедией», Twitter и Google.

Lumen фиксирует не только автора и текст требований, но также и характер изменений. Те же Amazon и YouTube подобную информацию не разглашают. Благодаря его базе профессор права Евгений Волох обнаружил целую серию мошеннических запросов: почти 200 из 700 судебных постановлений, на которые ссылались «пострадавшие», оказались поддельными.

Позже компания, регулярно отправлявшая фальшивые приказы в Google, получила иск от генпрокурора штата Техас.

Ответственность за сохранность контента стала общей и ничьей одновременно

Успех архитектуры интернета Зиттрейн связывает с «принципом прокрастинации»: согласно ему, задачи, которые стоят сейчас перед интернетом, смогут решить её же пользователи в будущем.

Профессор права Джонатан Зиттрейн Jonathan Zittrain

Им руководствовались основатели «Википедии» — они создали открытую энциклопедию и позволили людям свободно создавать и редактировать статьи. Такая свобода не защищала сервис от спам-атак и неверных правок. Однако сообщество со временем научилось бороться с недобросовестными пользователями.

Если бы создатели внедрили модерацию сразу, то, возможно, оттолкнули бы энтузиастов, которые заложили основу сайта, считает Зиттрейн.

Так же размышлял создатель Всемирной паутины Тим Бернерс-Ли: он не собирался проверять новые сайты или прописывать правила для их создания. И то, что сайты будут удалять, а страницы — изменять, было особенностью интернета, а не ошибкой в её архитектуре.

Однако именно это подрывает миссию, о которой когда-то говорила Google. «Структурировать знания всего мира и сделать их универсально доступными» не так просто, поскольку источники этих «знаний» легко изменить или уничтожить, полагает Зиттрейн.

Создатель Всемирной паутины Тим Бернерс-Ли Financial Times

Как исследователи пытаются сохранить источники

Решить проблему пытался компьютерный технолог Кале Брюстер. В 1996 году Брюстер основал некоммерческую организацию «Архив Интернета», где разработал сервис Wayback Machine: он сохранял содержимое веб-страниц и предоставлял доступ к ним даже после удаления.

Несмотря на то, что хранить удалённый контент не всегда законно, Брюстер верил, что делает значимое для человечества дело, пишет Зиттрейн. По словам самого Зиттрейна, деятельность сервисов вроде Wayback Machine следует поддерживать в том числе и государственными субсидиями.

Скриншот сайта Wayback Machine

Таким «веб-скрейпингом» активно занимаются и другие компании. Например, Clearview: она собрала миллиарды фотографий из социальных сетей Facebook, LinkedIn и Instagram и создала систему распознавания лиц на основе искусственного интеллекта.

В свою очередь, исследователи из Центра Беркмана по изучению интернета и общества разработали сервис Amber. Его плагин копирует страницы и позволяет пользователям зайти на их сохранённую версию, если основной сайт подвергся DDoS-атаке или вышел из строя. Похожая функция есть и у Google: браузер открывает кэшированную копию страницы.

Скриншот сервиса Amber

В 2020 году «Архив Интернета» также объявил о партнёрстве с компанией по защите от кибератак Cloudflare — вместе они создадут программу «Всегда онлайн». Если сайт-участник станет недоступен для Cloudflare, то его копия откроется из архива Wayback Machine.

Правда, и у этого подхода есть недостатки, отмечает Зиттрейн. Авторы судебных заключений и научных статей чаще всего ссылаются на конкретные фрагменты исходника. А если страницу изменят, тем более тайно, то копия её вариации за 2017 год, возможно, будет неактуальна в 2021.

Сам Зиттрейн вместе с исследователями гарвардской лаборатории инноваций создал платформу Perma. Учёные и судьи могут попросить Perma преобразовать указанные ими ссылки в постоянные. Располагаться они будут на perma.cc, а скриншоты страниц будут бессрочно хранить участвующие в проекте библиотеки — на сегодня их более 150.

«Perma — лёгкий способ сохранить ссылки. Добавь URL-адрес, создай «постоянную» ссылку на Perma и ссылайся на неё когда угодно».

Четверо учёных развили идею Зиттрейна и выпустили сервис Robustify, который позволяет включать в одну ссылку сразу несколько адресов — на действующую страницу и её архивную копию.

Robust создаёт два варианта ссылок: одна ведёт на действующий сайт, а другая — на архивную версию

Изменения нужно фиксировать независимо от их характера

Возможность быстро изменить содержание публикаций — заманчивая практика, признаёт Зиттрейн. Исправить неточности в указах пытался даже Верховный суд США. Поэтому проблему цифровой «податливости», по его мнению, нужно решать на уровне не только технологий, но и закона:

  • Судам — реже одобрять правки, тем более если их вносят без предупреждения читателей.
  • Издатели должны чаще противостоять давлению общественности и не менять содержание без постановления суда.

Некоторые исправления не следует разглашать публично, считает автор: например, если нужно удалить контактную информацию, которой пользуются злоумышленники. Или если пользователь ссылается на «право о забвении».

Например, Google не раскрывает такие запросы сервису Lumen — чтобы общественность не увидела материал, который, по мнению европейских властей, подрывает чью-либо репутацию.

Однако даже эти изменения должны фиксироваться — в специальных базах, которые будут недоступны широкой публике, но зато помогут исследователям понять, как пользуются инструментами цензуры государство и общественность. Только так, считает автор, человечество сможет увидеть, где и когда оступилось, и понять, куда хочет двигаться в будущем.

Лекция Зиттрейна о том, какое влияние имеют алгоритмы: почему человек считает поисковик «инструментом», а соцсеть «другом», и о мире, в котором учёные при написании трудов ориентировались бы на потенциальную реакцию читателей
{ "author_name": "Полина Лааксо", "author_type": "editor", "tags": ["\u0446\u0435\u043d\u0437\u0443\u0440\u0430","\u0434\u0430\u043d\u043d\u044b\u0435","\u0432\u0438\u043a\u0438\u043f\u0435\u0434\u0438\u044f"], "comments": 46, "likes": 52, "favorites": 111, "is_advertisement": false, "subsite_label": "future", "id": 268209, "is_wide": true, "is_ugc": false, "date": "Fri, 09 Jul 2021 19:21:22 +0300", "is_special": false }
0
46 комментариев
Популярные
По порядку
Написать комментарий...

Тема давняя и печальная (статья 2014 года): https://core-rpg.net/articles/gameindustry/misc/page_not_found_video_games_vanishing_history

Когда не так давно гулял по ссылкам на источники переведённых мной 10 лет назад статей, от 30 до 50 процентов вели в никуда. Либо сайтов тех давно нет, либо статей по ссылкам. Кое-что можно найти на ВебАрхивах, но не всё.

18

А с этими вашими телеграмами и вотсапами вообще полная задница настает связности интернета.

11
Запасной танк88

Там ничего ценного нет 🤷‍♂️

0

А сколько исчезает знаний,  у которых никогда не было ссылок. Самое время запилить блокчейн знаний. Хотя делиться знаниями в наше время стало опасно. Могут неправильно понять.

6

Такое уже запилено и называется оно inter planetary file system(ipfs) https://www.opennet.ru/opennews/art.shtml?num=55399

И есть Filecoin эталонная реализация системы где можно намайнить себе дискового пространства, базирующаяся на этом ipfs https://www.opennet.ru/opennews/art.shtml?num=55421

Filecoin даёт возможность пользователям, у которых имеется неиспользуемое дисковое пространство, за определённое вознаграждение предоставить его сети, а пользователям, которым нужно место для хранения, купить его. Если необходимость в месте исчезла, пользователь может продать его. Таким образом формируется рынок места в хранилище, расчёты в котором производятся в токенах Filecoin, образуемых при помощи майнинга.
ред.

10

Блокчейн именно то что нужно! Только вот сильные мира сего скорее будут против этой технологии - "НЕЗНАНИЕ — СИЛА" (1984).

3

Контент пропадает, потому что его хранение стоит денег. Хоть в блокчейне, хоть где. Издержки использования блокчейна для хранения контента на порядки выше, чем издержки использования классического веб-сервера, поэтому твоё утверждение — такая же абсурдная пропаганда. Минус с твоего комментария убрал, раз он мешает тебе полноценно пользоваться vc. Не думаю что тебе следует удалять свой комментарий, просто впредь пользуйся логикой и калькулятором.

0

Извините, но Вы про Фому, а я про Ерёму. Конечно же блокчейн дороже веб-сервера, но я-то написал про то, что есть люди заинтересованные, чтобы определённый контент исчезал. Это не о стоимости хранения.

2

Не извиню. Как это доказывает, что блокчейн это именно то, что нужно? Кто за банкет будет платить?

0
Запасной танк88

Есть технология. Она работает. Но стоит денег. Это уже вопрос к обществу: готово оно платить за технологию и сервис или нет.

0

Точно работает? Ну ладно, заливаем туда 50 000 ТБ данных из вебархива и ты не сможешь даже проверить этот блокчейн, проверка умрёт ещё на уровне пропускной способности твоей сети, про диск молчу. Общество за хостинг не готово платить, а ты предлагаешь прикрутить блокчейн к хостингу и платить на порядки больше, не получая никаких дополнительных выгод. ред.

0
Запасной танк88

Ну так и я про то же: общество даже за хостинг платить не готово 🤷‍♂️

0

Ну и далее: "И если все принимают ложь, навязанную партией, если во всех документах одна и та же песня, тогда эта ложь поселяется в истории и становится правдой. «Кто управляет прошлым, – гласит партийный лозунг, – тот управляет будущим; кто управляет настоящим, тот управляет прошлым»"

2

Так истории не существует. Существует сотни трактовок событий, которые когда-то были. Мнение, что можно претендовать на объективность в исторической науке заблуждение. 
Исторические трактовки создавали "победители" или "аппозиция", каждый трактует факт в свою пользу или просто-напросто выдумывает факты.
Например, факт "Представители России встретились с  представителями Талибан в Москве".
Спустя какое-то время, у этого события будет много трактовок. Одни историки будут ссылаться на стенограмму и протокол и говорить, что это мирные переговоры, с целью снижения напряженности в регионе. 
Другие историки изучат твиттер, и выяснят что "Путин вступил в заговор с террористами против американцев, а протокол это просто для прикрытия". 
Еще часть историков, изучат скрытные документы и инсайдерскую информацию Американцев и выяснят, что "Российские власти и Американские, придумали многоходовочку для наведения порядка в Афганистане."
И потом каждый историк будет трактовать это событие в свою пользу, в зависимости от того, в каком свете он хочет выставить этот исторический период. 
Переписывание истории это древняя традиция, как минимум еще с библии. Так что париться по этому поводу вообще не имеет смысла. 

4

Самое время запилить блокчейн знаний

Git

0
Запасной танк88

Тоже о нем сразу подумал 🤔

0

ipfs — всё давно итак придумано(недавно) ред.

0

Почему "исчезают"? Они не исчезают, а исчезают ссылки на них. "Что попадает в интернет, остается в интернете", копия всего где-то да остается.

0

Ну удалю я какую-нибудь статью со своего сайта - всё, её больше нет. А если закрыть доступ 403 редиректом, то вроде даже webarchive уже не покажет проиндексированную статью.

9

"не покажет" != "удалит".

0

здравствуйте, вы случайно не в госдуме работаете?

10
Запасной танк88

Если на переменную не остаётся ни одной ссылки - она потеряна

6

Хорошо, что знания не переменная.

0
Запасной танк88

'Переменная' в терминах ЯП.
Если нет ни одного пути добраться до 'знаний', то их нет, все. 
В некотором роде вебархив иногда остаётся той самой последней ссылкой

8

Завис на пару секунд гадая причём тут ЯПлакалЬ. И это особо печально так как я вообще-то по первому образованию программист

1
Запасной танк88

Вот второе предложение  действительно печально. Хорошо, что у вас есть какое-то другое образование -)
Тут достаточно простой логики. Ей в хорошей школе в 3-ем классе учат, в плохой - наверное, в классе 11-ом? -) 

0

А вы интересный человек и выводы далеко идущие из шуточных комментариев делаете. Вы точно хорошо усвоили школьный курс логики в своей хорошей школе? Давайте разверну свою мысль: общеупотребительное и более привычное значение аббревиатуры ЯП на общетематических сайтах рунета - паблик вторичных шуток ЯПлакалЬ. Сокращение ЯП для языков программирования я в последний раз встречал в середине нулевых, наверное.

4
Запасной танк88

Теперь вот понятно, шутку не распознал - (
Не очень, правда, понял как логика связывает ЯП с названием дегенеративного сайта для имбецилов, но спасибо, что восполнили мои знания -) 

0

 'Переменная' в терминах ЯП.

Я понял. За это я и не люблю аналогии. 

0
Запасной танк88

Если на переменную не остаётся ни одной ссылки - это memory leak 🤔

1
Запасной танк88

Конечно -) 

0

Мемори леак это наоборот когда ссылки есть из глобальной области но не используются потому что про них забыли. И ещё эти ссылки могут неконтролируемо появляться. Отсюда появляются данные в памяти которые встроенные механизмы не могут очистить.

0

Python так не считает)

0
Запасной танк88

Python надеется на GC 🤷‍♂️

0

То в языках с garbage-коллектором, в остальных всё есть, просто надо распарить память и найти)

0
Запасной танк88

Сейчас бы распарсить весь Интернет... -) 

2

Не на переменную, а на объект.

0
Запасной танк88

Ну понятно же о чем я говорил -) 

0
Запасной танк88

А потом приходит сборщик мусора...

0

Блокчейн, блокчейн, блокчейн

2

Кажется автор не очень в курсе о существовании archive.org , расходимся

–7

Это вы не в курсе, что wayback machine и есть archive.org. Ну или статью не читали

6

Я действительно не каждое слово читал. Но отдельно вейбэк машине в статье не искал. Потому что это часть archive org.

Предлагаемые в статье решения неминуемо столкнутся с отсутствием финансирования в будущем, и не смогут выжить. 

Посмотрите через десять лет кто из них выживет.  Я вам могу сказать наперёд, что никто из этих.

Поэтому я и не люблю статьи в таком стиле.  Ничего для меня нового не открыли.. Какие-то стартапы коммерческие, без внятного плана хотя бы на 5 лет вперёд.  Но эта вещь должна работать десятилетиями. Понимаете о чём я?

Судя по статистике, ТОЛЬКО сообщество свободного программного обеспечения способно на такие долгосрочные проекты, остальное это лишь временное ред.

0

Я считаю, что такие статьи рассказывают широкой общественности про проблему. Это вызывает обсуждения, рост количества решений, и в конечном итоге получается что-то успешное как свободное ПО. Почитайте, как лет 20 назад выглядела идея свободного ПО и оцените путь.

0
Запасной танк88

Привет, блокчейн.

2

Тема сохранения и систематизации знаний может оказаться куда занимательнее и глобальнее  ))

"Кто надо" уже сегодня вполне может создавать свою версию "выверенного интернета" (глобальной энциклопедии).

Первая скромная попытка осмысления вопроса: 
      "Wikipedia" = "Encyclopedia Galactica" ?
      https://aftershock.news/?q=node/993267

(Вот только не надо извечного бреда в последующих комментах про "конспирологию"; ибо сказано: всё, что желаете спрятать - кладите на самом видном месте!
если содержательно вам нечего сказать - поберегите и своё, и моё время)

0

Комментарий удален

Читать все 46 комментариев
Региональные аэропорты предупредили о возможной приостановке полётов из-за новых правил безопасности Статьи редакции

Чтобы соответствовать новым требованиям, аэропорты должны вложить 3-4 млрд рублей, а затраты могут не окупиться.

Роботы-курьеры «Яндекса» начнут доставлять посылки «Почты России» в Москве Статьи редакции

Пока заказать доставку можно через приложение «Почты России» на Android в некоторых районах города.

«Самый человечный нечеловек»: как мы развиваем голосового помощника Олега в колл-центре, чтобы он не был похож на других

Сегодня в колл-центрах девяти из десяти самых популярных российских банков по телефону отвечают голосовые помощники. Но не все клиенты ими довольны — нередко в соцсетях можно увидеть жалобы на телефонных роботов, которые должны помогать решать клиентские вопросы, но не всегда это делают.

XPeng анонсировала электромобиль со складными несущими винтами — он способен не только ездить, но и летать Статьи редакции

Китайский производитель планирует начать серийное производство в 2024 году.

HT Aero
Какие акции посоветовать новичку: российские или американские
Путин поручил запретить работу ресторанов и кафе по ночам во всей России Статьи редакции

И рекомендовал обеспечить два выходных для сотрудников, проходящих вакцинацию.

«Крутые ИТ-стартапы запускают не только в Кремниевой долине»: путь Insider от офиса в квартире к $47 млн инвестиций

За 9 лет разработчик маркетинговой платформы из Турции открыл филиалы в Польше, Вьетнаме, Индонезии, Дубае, России, Австралии и ещё 19 странах, а в будущем планирует оценку в $2-3 млрд и выход на IPO.

Рынок кикшеринга в России вырос на 200-230% за год, до 12 млрд рублей — исследование Статьи редакции

Но есть и проблемы: производители не успевают делать достаточно самокатов, компетентных сотрудников не хватает, а в СМИ кикшеринг «демонизируют».

Почта России запустила доставку из отделений роботами Яндекса

Почта России первой из почтово-логистических компаний начала доставлять посылки с помощью беспилотных роботов-доставщиков Яндекса. Проект реализован при поддержке Фонда «Сколково». На первом этапе 36 роверов будут осуществлять доставку из 27 отделений в Москве. Воспользоваться услугой можно будет через приложение Почты на Android, на старте…

Классификация текста с Elasticsearch

Когда я впервые наткнулся на Elasticsearch, я был очарован его простотой использования, скоростью и параметрами конфигурации. Каждый раз, когда я работал с ним, я находил еще более простой способ достичь того, что я использовал для решения, с помощью традиционных инструментов и методов обработки естественного языка (NLP). В какой-то момент я…

Улыбнитесь, вас снимают: как биометрия меняет жизнь банковских клиентов
null