С хранением и поиском информации в интернете большие проблемы. Найдётся не всё

С хранением и поиском информации в интернете большие проблемы. Найдётся не всё

В интернете много страниц с 404 откликом. Разделов или целых сайтов в интернете, которые когда-то были кому-то полезны, содержали данные, а позже были удалены по данному URL. Когда это ошибочно введенные или явно устаревшие URL с более качественной заменой, которую легко найти – это нормально. Но когда на месте этой ссылки была важная научная статья, важное видео с любимым человеком, важный момент исторической хроники или другой нужный для кого-то кусочек информации – это может быть настоящей трагедией.

Если позволите, далее небольшая справка, буквально на 1 минуту:

Специалисты Исследовательского Центра Пью (США) подсчитали, что около 40 % веб-страниц, созданных с 2013 года, больше недоступны из-за цифрового распада. Новое исследование показало, насколько недолговечен онлайн-контент.

От цифрового распада пострадало даже содержимое 2021 года: из контрольной выборки примерно 20% страниц было утеряно.”

Представьте, что с такой “конверсией” хранились бы ваши официальные документы: 40% потерялось за 10 лет. 20% утеряно всего за пару лет. Вряд ли бы вас это устроило. И бюрократия такого расточительства себе обычно не позволяет.

А как на счет книг? Потеряли ли мы за 10 лет 40% книг? Не похоже. Даже за 100 лет, вероятно, столько книг (если она была опубликована публично хотя бы на сотню людей) мы не потеряли.

Меня эта тема всегда волновала немного больше, чем людей из своего окружения. Поэтому далее я обрушу на вас свое мнение по этому вопросу, надо ли вам это или нет.

Лично я неоднократно расстраивался, когда не мог что-то найти из важных для меня статей времен 2005-2010 годов. С возрастом старых воспоминаний из интернета становится всё меньше, но те, что есть, бывают крайне ценны. Любимый ролик, снятый другом на старый телефон, на котором запечатлен кусочек вашего детства. Юмористическая статья, которая в десятки раз смешнее многих современных роликов. Важная запись телевизионной или радиопередачи. Просто чем-то примечательная для вас страничка в интернете.

Всё это с каждым годом становится всё недоступнее. Количество видео и текстов в интернете растет со страшной скоростью. Примерно 3,7 миллиона новых видео загружаются на YouTube каждый день. Это примерно в 5 раз больше, чем в 2013 году. Статистику за 2005 я не нашел, просто представьте, что роликов было меньше раз примерно в 25.

Информации с каждым днем становится все больше. Устройства по производству контента (телефоны и компьютеры) в целом становятся доступнее по всему миру каждый год. Вес файлов увеличивается (видео становятся все качественнее, а на html-страницах уже не только текст или текст с фото, а куча скриптов, порою видео, всяческих скриптов и так далее).

Почему это важно? Что с этим можно делать? Что уже делается? И в чем есть сложности?

Психология поиска

Люди с развитием интернета все чаще “забывают” информацию, потому что все чаще важно не помнить, а “быстро найти”. Знать что, как и где искать и как это затем использовать. А помнить что-то дословно стало (якобы) вовсе незачем. Не буду ворчать, это по-своему хорошо: все упомнить нельзя, а хранить интернет может сильно больше, чем человеческий мозг. Но если оно пропало? К такому человек не всегда готов. Может, у стертой информации есть копия? Может и есть, но может и нет. А если есть, то где? Обычно в том же интернете. Где потеряли, там и ищите, ведь копии интернета в офлайн почти не выходят: книги со статьями из интернета публикуются куда реже, чем публикуются всё новые и новые статьи. YouTube-видео редко показывают по телевизору. Проще говоря: мозг уже привык, копии есть не всегда и не у всего, а подстраховываться мы в целом не научились.

Личное против общественного. Кому принадлежат переписки?

У меня был близкий друг. Мы общались с ним 10 лет. Ездили в отпуск, ходили на концерты, праздновали дни рождения общих друзей. Копили воспоминания. Большую часть этих воспоминаний мы хранили в виде фото и видео в чате одного популярного мессенджера. В один прекрасный день мой друг решил, что всему есть срок и перестал со мной общаться. А попутно он удалил “у всех” все наши сообщения. Фото, видео, тексты, голосовые сообщения – всё исчезло.

Часть этих данных была моей. Я уверен, что это принадлежало мне: я снял это на свой телефон и я сам это загрузил. У меня это отобрали совершенно безвозвратно и без разрешения. Что это?

Допустим, я взрослый мальчик и переживу. А что, если это была переписка деловых партнеров? Клиента и подрядчика. Те, кто составляет или работает по договорам в IT знает популярную формулировку типа “Стороны признают юридическую силу сообщений, переданных по электронной почте”. Но тут-то почта не электронная. А ваши договоренности можно просто “удалить”. Хорошо, допустим, вы прописали в договоре отдельное упоминание не только про электронную почту, но и про мессенджеры. Кто-то удалил данные “у всех”. Если вы не фотографировали, не делали бэкапы или иным способом не копировали договоренности - они пропали и клиент (либо заказчик) может дальше не выполнить своих обещаний, а вы не сможете доказать, что они были. А ведь там могли быть судьбоносные решения, влияющие на миллионы денег и судьбы людей.

Право пользователя на удаление “своего” контента.

Пользователь Аноним однажды проснулся и решил, что удаляет свой профиль на ютубе, страницу на форуме и еще пару профилей в социальных сетях. Захотел и удалил - имеет право, но редкое видео, которое ему не принадлежит (предположим, что это был перезалив старого видео, оригинал которого утерян) - удалено вместе с ним. Например, запись редкого футбольного матча или выступления, а авторские права не у него, других копий и нет. Получается забавная морально-этическая дилемма. Пользователь, может, и не имел право публиковать видео. Но он имел право удалить его. Но возможно он удалил последнюю копию. Парадокс, а сделать вроде бы и нечего.

Пиратство и авторские права

Страх перед пиратством как явлением мешает сохранять нужную информацию. Отдельно отмечу, что этот текст пиратство не пропагандирует. В то же время запись старого фильма с оцифрованной кассеты в интернете не так-то легко сохранить. Фильм кому-то принадлежит. Правообладатель может его удалить. Но фильм в нужном мне переводе из 1995 года был только пиратским. Если я захочу его “спасти”, я должен сделать копию. Но тогда я становлюсь пиратом и нарушаю авторские права. А представляете сколько редких фильмов могло бы быть утеряно или спасено за период с 1920 по 2000? 80% американских немых фильмов утеряно навсегда (так говорит Скорсезе и у него есть на это основания).

Вы скажете, что это проблемы времен отсутствия “цифры” и качественных копий на кассетах. Но во-первых, это доказывает, что проблема была и ранее. А во-вторых, она никуда не исчезла. Примеры со старыми файлами, которые кто-то потерял, есть у каждого из нас (фотографии с застолья, выезда на природу, удаленные ради свободного места на диске - это бывает у многих). Но и контент сейчас хранят не всегда так, как стоило бы.

В 2010 году на российском телеканале "Бибигон" (ныне "Карусель") транслировалась детская кукольная передача "Секреты Лунтика", которая считалась полностью утерянной вплоть до апреля 2021 года, когда были найдены отрывки первых двух серий (из 26 серий). В 2023 году были найдены рабочие видеоматериалы 12 серий.

Понимаете? Даже если что-то существует в цифре, доступно тысячам людей, транслируется по телевидению - это всё равно может быть утеряно. Пираты могли бы спасти многое, но это было бы, собственно, пиратство. Значит, это тоже не выход. Или не совсем выход (я всё ещё не пропагандирую пиратство).

Некоторые фильмы и другие произведения по закону переходят в общественное достояние через примерно 70 лет, такие законы есть во многих странах (количество лет может отличаться). Но части авторов просто неважно, что их фильм станет общественным достоянием или не станет - они и рады бы им поделиться, но потеряли его. Допустим, выпустил автор фильм, не самый кассовый и знаменитый, независимое кино - на таком много не заработаешь на авторских отчислениях. И через 10 лет ему уже неважно, что это фильм, который должен приносить ему отчисления - их всё равно нет. Ему важно, чтобы фильм сохранился. Какой-то энтузиаст скопировал его на жесткий диск, и даже провел реставрационные действия (улучшил звук, картинку). Но он не имеет на это права. А автору не до этого фильма - у него другие дела, другие фильмы и он не отказался от авторских прав. Выйти на автора ради того, чтобы выпросить разрешение - задача непростая для обычного человека. Такие контакты раздобыть нелегко. Нужно найти телефон по знакомым знакомых в индустрии. Дозвониться до нужного человека. Попросить и получить согласие. Но ведь через пару лет энтузиаст может удалить фильм, чтобы освободить место, ему уже не хочется хранить лишнего, а данная копия окажется последней.

Обратная же ситуация выглядит так: владелец авторских прав удалил нечто, что было ценно многим людям. Копировать нельзя. Гоголь сжег второй том “Мертвых душ”. Довлатов при жизни выступал против публикации своих писем (его не послушали). Кафка оставил своему другу Максу Броду завещание: после его смерти избавиться от всех незавершенных черновиков, не читая их. Его тоже не послушали. И люди могут порою прочесть то, что автор и публиковать не хотел.

Далеко не каждый Кафка, Пушкин и Довлатов. Но, во-первых, некоторые авторы действительно талантливы и во времена, когда книги уже читают реже. Среди них тоже есть свои если не Пушкины, то Довлатовы (не сочтите за пренебрежение, сам его почитаю). Во-вторых, как видно из примеров, истории вида “автор запретил” заканчивались по-разному, и человечеству в целом немного приятнее, когда произведение все же доходит до людей, а не уничтожается.

Некоторые альбомы, музыка и фильмы принадлежат правообладателю, который никуда ничего не выкладывает, как собака на сене. Снова пример из личного: некоторые российские сериалы из нулевых, добротно сделанные и ценные мне как память из детства, не выкладываются десятилетиями. Их нет на DVD, нет на стримингах. Легально найти и посмотреть их нельзя. Но в 2021 году правообладатель после десятка лет забвения выложил их на YouTube. И это не системный случай. Другие правообладатели разорились, занялись другим бизнесом, и кому в итоге они передали права - следов не найти, как и самого сериала. А представьте, что придется ждать 75 лет? А у кого будут копии через 75 лет? Только у уже бывшей компании-правообладателя и (может быть) у самих авторов, которые могут не дожить до этого момента и не оставить наследников.

Удалено не всё. Но то, что осталось, практически невозможно обработать.

Скажу прямо: вы легко найдете знаменитые сериалы 30-летней давности. Может быть даже на официальных стримингах. Сможете без проблем отыскать новость мирового масштаба из прошлых лет - пожалуйста. Книгу известного писателя - легко.

А вы можете найти рассказ, популярный в ЖЖ лет 15 назад? Популярную копипасту со старых форумов? Конкретную страницу с форума, помня несколько слов, пусть даже уникальных? Цитату телеведущего, которую все обсуждали 25 лет назад?

Особенность поисковых систем, которую лично мне трудно описать, но которую я часто вижу: когда они не могут точно найти то, что тебе нужно, они показывают тебе “околотематический” контент, в котором нужного тебе ключа вообще может не быть. Нужный контент где-то существует и формально даже не удалён, но спрятан так глубоко, и находится так плохо, что он словно звук падающего дерева в пустом лесу - был ли он вообще?..

Часто найти что-то нужное невозможно, потому что страницы не оптимизированы. Сайты известных крупных вузов, старые базы знаний со статьями - многие из них содержат важную и полезную (для кого-то) информацию, но сайт может быть совсем не подготовлен к поисковикам. Хорошо, если вообще от индексации не закрыт.

Чем может помочь ИИ?

Искусственный интеллект, вроде бы, помогает искать глубже, по более синонимичным образам, уже необязательно дословно знать цитату (якобы).

С хранением и поиском информации в интернете большие проблемы. Найдётся не всё

На этом примере всё сработало как часы. На "нулевой" позиции сразу правильный ответ, а я ведь даже не ввел ни одного ключа из заголовка и описания.

На практике - работает это далеко не всегда, особенно если вы ищете что-то редкое (а что-то частое в целом и так найти нетрудно!).

С хранением и поиском информации в интернете большие проблемы. Найдётся не всё

Вот здесь я написал запрос, который вы видит в верхней половине скриншота. В топе SERP песня года, пару фильмов и мультфильмов, выдержки из книг. На всем первом экране результатов поиска релевантный результат всего один: кто-то на Ответах Мэил Ру задал вопрос схожим со мной образом (так совпало) и другой человек смог ему ответить. Не будь вопрошающего и отвечающего - весь топ выдачи Google был бы бесполезен. Но даже в этом случае у спрашивающего на руках было название группы (“Король и шут”). Не было бы названия группы или ЧЕЛОВЕКА, который знал ответ - интернет бы не помог, хотя я ввел довольно подробное описание.

Если ИИ будет подробно сам описывать содержимое видео, аудио, текстов и изображений (хотя бы для себя самого и записывать это в метатеги или техническую информацию о файлах, хранить внутри самих сайтов), и искать по этой информации, если оптимизация страниц станет автоматической хотя бы на половину (актуально там, где нет ручной оптимизации под запросы) – искать действительно станет проще. В этом смысле у интернета светлое будущее. Опустим тему, что найдется слишком много, что-то тайное тоже может всплыть - здесь уже вопрос в защите информации, которая не всегда на высоте у людей и организаций. И стоит ли этот побочный эффект прогресса в поиске? Именно так однажды в интернете появилось множество вроде бы не защищенных паролем, но вроде бы и не открытых для чужих глаз гугл-документов, которые массово попали в индекс. Здесь важно, что это не был хакерский взлом. Это был как раз тот случай, когда алгоритмы поиска улучшились, а сайты к этому (пусть это и сайты поисковой системы Гугл) оказались к этому не готовы. Тогда была большая шумиха, кое-что полезное для хакеров и мошенников оказалось в открытом доступе, а гугл изменил свою политику в отношении таких файлов. Да и люди стали осторожнее.

Но ИИ это как мощнейший процессор: все исполнит, кое-что даже “придумает” (из того чему научен), но никогда ничего не запомнит. Удаленные страницы ИИ не вернет, новое не спасет. Может только создать нечто, и то только с участием человека. Выложить куда-то сам ИИ тоже не в состоянии: музыку придумывает ИИ, а кнопку “загрузить на стриминг” всё равно нажимает человек. Даже научит его все сохранять практически невозможно. Но ИИ не может (сочинить симфонию) купить жесткие диски, не создаст систему запоминания и структуризации контента. ИИ даже сам себя воспроизвести и скопировать никуда не в состоянии без помощи человека.

Не сочтите меня за архаика. ИИ удивляет уже сегодня и в будущем удивит сильнее. А пока только так.

За облачные возможности

Куча файлов сейчас хранятся в облаке. Это привело к тому, что в массовом, публичном интернете хранится чуть меньше информации, чем могло бы. Документы и фотографии, которые раньше могли быть опубликованы на сайтах, в социальных сетях, открытыми для всех, теперь хранятся под чьим-то личным логином и паролем. Это нормально, люди имеют право хранить файлы как удобно (и естественно имеют право на приватность).

Но личное облако рухнет со всеми данными если забыть пароль, долго не продлять подписку. Да, некоторые сервисы прямо сейчас в условиях оказания услуг пишут нечто вроде “у вас будет 3 месяца все же продлить сервис, потом мы удалим файлы такие-то, а затем все остальные”. А если забыть, какой именно сервис вы использовали, то данные будут где-то находиться, но никто их уже не увидит. Допустим, о том, что существует Гугл драйв вы вряд ли забудете. Но если у вас есть 5-10 сервисов для разных нужд, то за пару месяцев несложно забыть как называлось то редкое облако со сложным неймингом, которое бесплатно дает целый терабайт для хранения. Забыли URL и название сервиса? Приложение не ставили, пользоват Всё. Поди сыщи. Звучит комично для кого-то, но если у вас таких сервисов 10 штук, - дайте себе пару лет и посмотрите, как это бывает.

Кража памяти

Никуда не денется и проблема краж и присвоений. Пример из личной практики: однажды один очень крупный банк создал свой новый сайт. И решил, что старый сайт им больше не нужен: будет новый URL в интернете, новые тексты, современный дизайн, совершенно другие фотки… Редирект со старого сайта на новый не ставили. Сайт просто “бросили”.

Дальше группа людей выкупила схожий с предыдущим адресом банка домен (отличался всего 1 символ в ссылке), скопировала себе все данные, подняла “старый” сайт на “почти старом” URL и начала продвигать его в поиске. И сайт стал отображаться в позициях по многим запросам выше нового официального: на нем куча информации, он оптимизирован - подарок для поисковых систем (которые тогда менее охотно проверяли всякие трастовые факторы), а новый сайт какой-то свежий, непонятный, сыроватый, контента еще мало - он не бил рекорды позиций сразу.

В итоге банк получил ущерб в виде недополученного трафика. Да, наверное, это юридический вопрос, неправомерное действие и так далее. Но мошенники могут быть из страны, где это не преступление? Где людей не экстрадируют? Они останутся безнаказанными, а ущерб останется. Ведь на сайте была возможность якобы оформить заявку, писались, возможно, более красивые проценты по вкладам и кредитам. Клиенты переманивались, отношение к бренду банка могло быть сильно ухудшено. Всего этого можно было избежать, если данные не удалять и не бросать, а архивировать - оставить в виде библиотеки, неприметной ссылки на сайте, повесить большую плашку “АРХИВ” на все старые страницы. Грамотно настраивать редиректы. Да, где-то нужно место на серверах и методы хранения. Возможно, это будет обратной проблемой: эдакий цифровой синдром Плюшкина, хранить всякий хлам вместо нового тоже не всегда полезно. Хотел бы я знать, где в такой ситуации провести черту между “как сейчас” и “хранить все до последнего байта”. Но ущерб в поиске был бы сильно меньше. А то, к чему мы пришли сегодня, с кучей 404 ссылок за последние 20 лет, явно не лучший вариант.

Выводы и перспективы

Есть ли способ спасти информацию? Поменять что-то глобально, или хотя бы заметным образом увеличить долю спасенного, пусть и не сразу? У меня нет готового ответа. Объемы производимого контента растут, “пилить” его несложно (представьте сколько весит запись 8-часового стрима в качестве 4k - и такого в интернете полно, а будет еще больше), в то время как хранилища (дата-центры) дороги, сложны в обслуживании, занимают физически много места. В это же время паттерны людей глобально не меняются просто так. Люди продолжат превращать свои статьи в 404 отклики на сайте, они будут забрасывать свои старые проекты, не продлять хостинги и домены. Не будут заботиться о цифровом наследии (вспомните, как непросто бывает сохранить даже номер телефона в некоторых ситуациях с умершим родственником - а куда сейчас без авторизации по телефону?).

Публиковалась новость, что есть группы энтузиастов, которые поддерживают редкие торрент-выдачи и им даже выделяют деньги на новые жесткие диски. Но даже это (оставляя в стороне проблемы пиратства и этичности) не помогает глобально: сохранятся отдельные фильмы или альбомы, но страницы в интернете исчезать не перестанут. А энтузиасты пока действуют несистемно: сохраняют что-то дорогое для них или отдельные файлы, которые их попросили.

Для глобального решения проблемы может понадобиться целая глобальная система: понять, что нужно хранить, а о чем достаточно просто упоминания в виде пары строчек текста. Понять, как хранить: с какой частотой делать резервные копии и какие сайты должны резервно сохранться. Да-да, я знаю про Wayback Machine. Но у большинства сайтов она сохраняет 1 принт раз в год, если это не сайт с многотысячной посещаемостью (там-то бывает по несколько архивов в неделю). Также у ресурса значительные юридические проблемы и блокировки в нескольких странах - потому что они сохраняют в том числе и противозаконные материалы, что также является большой проблемой.

Данная проблема может решаться либо централизованно (на уровне больших компаний или даже государств, которые будут использовать глобальные мощности), либо децентрализованно (структура с большим количеством энтузиастов, в которой ученые одних направлений хранят одни данные, другие ученые - другие данные, математики - третьи, геймеры четвертые, сценаристы- пятые и так далее).

Но ни одна из этих систем не гарантирует, что все получится и ничего не потеряется. Неясна даже тенденция: проблема порою замечается интернет-сообществом, но слишком редко и активных действий для ее решений пока не видно. В будущем, либо контента станет слишком много и мы увидим мир сплошных 404 (больше контента - больше битых ссылок), либо получится хоть как-то ограничить рост данной проблемы.

Готового четкого решения пока никто так и не реализовал. Возможно, даже и не придумал.

44
Начать дискуссию