Заархивировать интернет, чтобы помочь студентам, журналистам и исследователям: зачем создавался сервис Wayback Machine

В 1996 году программист Брюстер Кейл придумал сервис, чтобы сохранять веб-страницы. Он не принёс ни цента, но хранит в себе около 700 млрд сайтов, книг, игр и фильмов. Откуда идея и с какими проблемами Кейл столкнулся — в пересказе TechRadar.

Брюстер Кейл / <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.google.com%2Furl%3Fsa%3Di%26amp%3Burl%3Dhttps%253A%252F%252Fwww.irishtimes.com%252Fbusiness%252Ftechnology%252Fa-worldwide-effort-to-stop-the-web-losing-its-memory-1.2877963%26amp%3Bpsig%3DAOvVaw15PbX9_Z7Kgzk5nYbge_37%26amp%3Bust%3D1640357243165000%26amp%3Bsource%3Dimages%26amp%3Bcd%3Dvfe%26amp%3Bved%3D0CAwQjhxqFwoTCODuioyV-vQCFQAAAAAdAAAAABAK&postId=338737" rel="nofollow noreferrer noopener" target="_blank">The Irish Times</a>
Брюстер Кейл / The Irish Times

В 1996 году американский программист, предприниматель и активист Брюстер Кейл основал две отдельные, но тесно связанные организации.

Одна из них — Alexa Internet, которую Кейл запустил вместе с коллегой Брюсом Гиллиатом. Сервис собирал с сайтов метаданные о том, на кого они зарегистрированы, сколько там страниц, на какие ресурсы они ссылаются и как часто их обновляют.

В 1999 году сервис выкупила компания Amazon за $250 млн и превратила его в многофункциональный SEO-продукт — с собственной поисковой системой Alexa Image Search.

Вторая организация — некоммерческая инициатива Internet Archive, или «Архив интернета»: хранилище сохранённых онлайн-страниц, оцифрованных книг, аудио- и видеозаписей, изображений и ПО. Согласно замыслу, оно должно было стать интернет-версией крупнейшей в древнем мире Александрийской библиотеки и сберечь накопленные человечеством знания.

В начале 2021-го «Архиву интернета» исполнилось 25 лет, но Кейл, который по-прежнему сам заправляет делами, работой не доволен. Проект медленно развивается и вынужден противостоять угрозам, с которыми раньше не сталкивался.

Как появилась идея «Архива интернета»

О будущем интернета и о том, как в нём обмениваться ценными данными, Кейл задумался ещё в 1980-х во время учёбы в Массачусетском технологическом институте, где изучал компьютерные науки. Там он мог подключиться к ARPANET — прототипу современного интернета.

ARPANET — компьютерная сеть, которую в 1969 году построило агентство минобороны США. Закрылась она в 1990 году. Дэвид Крокер, один из участников проекта, разработал один из первых стандартов электронной почты.

Сеть позволяла компьютерам обмениваться данными по коммутируемой телефонной сети. Сами данные делила на небольшие фрагменты и передавала в отдельных «пакетах», которые «принимающая сторона» собирала в единое сообщение.

Развитие ARPANET сопровождалось всплеском инноваций в области вычислительной техники, пишет TechRadar. «А эксперименты с рассылками по сети показали, как это здорово — что люди из разных сфер и стран могут общаться без задержек и трений», — рассуждает Кейл. Тогда он и решил создать цифровое хранилище для совместного пользования файлами. Вот только инструментов для этого у него не было.

Окончив в 1982 году институт, он устроился к производителю мини-суперкомпьютеров Thinking Machines. Её основатели хотели монетизировать исследования в области массово-параллельной архитектуры вычислительных систем — менее дорогих в использовании. Программист возглавил разработку главного продукта компании — самого быстрого компьютера Connection Machine, пишет TechRadar.

Чтобы онлайн-библиотека работала, Кейлу нужен был свой поисковой движок — WAIS, который искал бы тексты по ключевым словам и возвращал подборку с подходящими ссылками пользователю. Его он построил на основе наработок Thinking Machines.

И всё это происходило ещё до того, как появился интернет, пишет TechRadar. «Думаю, тогда нас считали провидцами, но на деле в концепции не было ничего особо революционного. О гипертексте говорил ещё в 1945 году учёный Вэнивар Буш, а уже в 1960-м программист Дел Нельсон запустил проект Xanadu — инструмент гипертекстовых публикацией», — говорил Кейл.

Команда Thinking Machines / TechRadar
Команда Thinking Machines / TechRadar

Александрийская библиотека 2.0

С 1996 года хранилище «Архива интернета» разрослось и в 2021 году весит примерно 70 тысяч терабайт. Весь контент НКО хранит на жёстких дисках в своей штаб-квартире, но на всякий случай отправляет его резервные копии на серверы в Нидерландах и египетском городе Александрия.

В 2021 году «Архив интернета» предлагает круглосуточный и открытый доступ к:

  • 34 млн книг и 635 млрд заархивированных страниц через своё подразделение Wayback Machine.
  • 9,7 млн видеофайлов и 14 млн аудиозаписей.
  • 796 тысячам программ и 4 млн изображений.

Сервису удалось сохранить труды более 100 млн человек, и Кейл уверен, что этого недостаточно — объёмы, по его словам, можно увеличить в десять раз. Правда, данных в интернете теперь больше, чем места в его онлайн-библиотеке, поэтому возникает вопрос: что стоит архивировать, а что нет, пишет TechRadar.

Алгоритмы архива «перебирают» страницы во всемирной паутине так же, как поисковые системы. А чтобы понять, что достойно внимания, сервис сотрудничает с сотнями библиотек. Их сотрудники, говорит основатель, годами собирают книжные коллекции на самые разнообразные темы, поэтому могут подсказать, что стоило бы сохранять и как часто.

Программы «Архива интернета» одновременно выполняют около 3 тысяч «обходов». Одни осматривают новости или соцсети, другие — публикации в заданных регионах, а третьи перебирают страницы, которые предлагают заархивировать пользователи.

Изначально Кейл просто хотел передать культурное наследие потомкам, но в ходе работы понял, что у его проекта могут быть и другие применения:

  • Это инструмент, который хранит множество цифровых доказательств. Журналисты, например, благодаря сервису восстанавливали доступ к материалам, которые их авторы удаляли из онлайна.
  • Это наглядное отражение того, как эволюционировали культура и способы общения в интернете, что может пригодиться студентам и исследователям.

Онлайн-публикации — не единственный приоритет НКО. Вторым Кейл считает книги. Во время пандемии учащимся запретили посещать библиотеки, поэтому те были вынуждены полагаться на цифровые ресурсы. Тогда возросло не только число пользователей, но и количество обращений от библиотек, говорит программист: те просили представить на сайте их оцифрованные коллекции.

Обычно НКО следует принципам контролируемого цифрового кредитования. Количество онлайн-копий книги должно соответствовать числу её физических в библиотеке. И временный доступ к одному такому файлу может получить только один читатель — через электронную очередь.

Но чтобы помочь индустрии, «Архив интернета» запустил инициативу National Emergency Library — «Национальную библиотеку для экстренных случаев» — и почти на четыре месяца снял запреты на одновременное использование книг. Студенты, преподаватели и обыватели решение НКО похвалили, а защитники авторских прав раскритиковали.

Теперь группа издателей, среди которых Penguin Random House, Harper Collins, Hachette и Wiley, подаёт на платформу в суд за «умышленное нарушение авторских прав в крупных масштабах». По их словам, «Архив интернета» стремится к тому, чтобы разрушить литературную экосистему, а не дать миру свободный доступ к знаниям. В декабре 2021 года иск всё еще находится на рассмотрении.

Кейл с ними не согласен. «Издатели вдруг решили, что мы не должны иметь права сохранять и одалживать книги, и этим лишь подрывают становление библиотек в цифровом мире», — говорит он.

Интерфейс «Архива интернета» / <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.google.com%2Furl%3Fsa%3Di%26amp%3Burl%3Dhttps%253A%252F%252Fwww.lifewire.com%252Finternet-movie-archive-1357416%26amp%3Bpsig%3DAOvVaw28GSJWtm-ehHnvJJvdTX87%26amp%3Bust%3D1640360402750000%26amp%3Bsource%3Dimages%26amp%3Bcd%3Dvfe%26amp%3Bved%3D0CAwQjhxqFwoTCPjs9u2g-vQCFQAAAAAdAAAAABAD&postId=338737" rel="nofollow noreferrer noopener" target="_blank">Lifewire</a>
Интерфейс «Архива интернета» / Lifewire

Будущее онлайн-архивов

С 1996 года работу «Архива интернета» финансировал сам Кейл, который параллельно привлекал небольшие суммы от активистов и библиотек, чьи книги помогал оцифровывать. Вот только теперь этих денег может оказаться недостаточно, пишет издание. Объёмы заархивированных материалов растут, а вместе с ними цены на хостинг и другие технологии, без которых сервис не может существовать.

Кейл говорит, что его собственных денег пока хватает, но от помощи всё равно не отказывается: чтобы не размещать рекламу на сайте и быстрее разобраться с судом. Программист также сетует, что в интернете слишком много дезинформации и контроля со стороны техгигантов.

Нам нужен баланс. Иначе всё, что мы размещаем и читаем в информационной среде, будут контролировать и проверять небольшие корпоративные и правительственные группы. А мы, в свою очередь, упустим возможности, которые подарил нам интернет.

Брюстер Кейл

Чтобы обратить внимание на проблемы, в октябре 2021 года НКО запустила сатирический проект Wayforward Machine — машину, которая предлагает посетить будущее интернета. Сервис просит ввести сайт, а затем выдаёт пользователю множество всплывающих окон с просьбами оплатить услугу, ввести личные данные или запретами на вход.

«У нас нет рычагов давления, но зато есть библиотека. Все беды она не решит, но без неё цифровая экосистема существовать просто не сможет, поэтому их нужно развивать, продвигать и защищать», — говорит основатель. Если вовремя не отстоять интересы таких общедоступных альтруистичных проектов без рекламы, то их уничтожат.

Мир может стать местом, где сосуществуют несколько победителей, а люди постоянно вовлечены, образовываются и заводят знакомства. Звучит как утопия, но к ней нужно стремиться.

Брюстер Кейл
5757
10 комментариев

Напомню, что у них все еще идет акция: каждое ваше пожертвование будет удвоено:
"We currently have a 2-to-1 Matching Gift Campaign which will maximize your support of this valuable resource."

https://archive.org/donate/

6
Ответить

Ещё пару лет назад подписался на небольшое ежемесячное пожертвование. Имхо, самая полезная из всех 5-баксовых подписок, что у меня есть.

9
Ответить

А как эта акция работает? Я доначу 5 уе откуда возьмутся еще 5 уе?

Ответить

С 1996 года работу «Архива интернета» финансировал сам Кейлв 2021 году весит примерно 70 тысяч терабайтКейл говорит, что его собственных денег пока хватаетКто из индустрии может в рубли перевести? Ну там сами устройства хранения, электричество, обслуживание и пр.? Хотя бы плюс/минус километр?

2
Ответить

Комментарий недоступен

Ответить

Заархивировать интернет, чтобы помочь студентам, журналистам и исследователям: зачем создавался сервис Wayback MachineУ вас был план и вы его придерживались?
Да, у меня был план и я его придерживался

Заголовок свёл смысл чтения к нулю

2
Ответить

Алексу недавно вроде как закрыли

1
Ответить