Интернет помнит всё

Как часто вы читали новость, возвращались к ней и обнаруживали, что она удалена? Согласитесь, часто. Информация удаляется мошенниками, вашими бывшими, пиар-службами знаменитостей, корпорациями, которые выпустили слишком агрессивную рекламу.

По статистике треть негативных новостей о компаниях исчезают с исходных страниц в течение первого года – их удаляют, изменяют или скрывают от индексации. Можно ли посмотреть то, что было удалено или скрыто от просмотра?

Конечно же да. Интернет помнит всё. Люди постоянно что-нибудь копируют к себе на страницы, поисковые системы оставляют улики в индексах, а специализированные архивы сохраняют миллиарды сайтов. Например, крупнейший веб-архив в мире — Internet Archive — содержит более 800 миллиардов сохранённых веб-страниц, некоторые из которых датируются аж серединой 1990-х годов. Так что удаление оригинальной страницы далеко не всегда приводит к исчезновению самой информации.

Вот вам занятный факт: по оценкам исследователей, более 50% популярных новостных материалов в первые сутки после публикации появляется в десятках и даже сотнях копий на разных ресурсах.

Многие знают этот сервис под названием Web Archive

Находится по ссылке: https://web.archive.org/

Сервис сохраняет слепки сайтов, сделанные в разное случайное время. Это возможно потому, что специальные программы – веб-краулеры – регулярно обходят интернет и сохраняют страницы. Регулярность зависит от степени значимости и посещаемости сайта: популярные сайт индексируются ежедневно, а небольшие сайты-визитки, информация на которых не меняется месяцами, индексируются раз в месяц или при обновлении контента.

Сайт https://www.kinopoisk.ru/ существует с 1998 года, и Web Archive неоднократно сохранял его слепки на разные даты. Поэтому можно буквально «отмотать время назад» и посмотреть, как выглядел сайт много лет назад. Например, открыть версию страницы от 2021 года и понять, какие новости из мира шоу-бизнеса тогда обсуждали.

А вот так он выглядел в 2010 году:

Такие архивные копии нередко оказываются полезны и в более серьёзных ситуациях. Часто журналисты и специалисты по расследованиям используют веб-архивы для проверки заявлений компаний и публичных лиц. Если сегодня на сайте говорится одно, а год назад там была совсем другая информация, архив позволяет это легко увидеть. Именно поэтому веб-архивы используют даже в судебных разбирательствах, когда нужно подтвердить, что определённая информация действительно была опубликована в интернете в конкретный момент времени.

Правда, она уже может быть изъята, и тогда вы увидите вот такую картину:

Кстати, информация вполне может быть удалена без санкции владельцев площадки. Дело в том, что в октябре 2024 года некоммерческая организация «Машина в прошлое» столкнулась с серией кибератак, которые привели к временному отключению сервиса и утечке данных.

Злоумышленники похитили базу данных объемом 6,4 ГБ, содержащую сведения о 31 миллионе пользователей, включая адреса электронной почты, экранные имена и хеши паролей. Что неудивительно, так как сервис сохраняет не только сайты, но и разные базы, статьи, фото и видео.

На веб-архиве есть не все, потому что не все сайты разрешают сами себя индексировать. Однако правила индексации периодически меняются, и некоторые сайты утекают в руки веб-архивов потому, что не успевают перестроиться. А во-вторых он сотрудничает с кучей организаций, например, он получает контент у разных национальных проектов, университетов и поисковых систем. Важную роль в наполнении архива играют и сами пользователи, которые могут вручную инициировать сохранение конкретной страницы через функцию «Save Page Now» на сайте Wayback Machine.

Если у вас появится желание поучаствовать в развитии проекта, это можно сделать, сохранив страницу вручную. Для этого достаточно вставить её адрес в поле «Save Page Now» на сайте архива или добавить префикс web.archive.org/save/ перед нужной ссылкой в браузере. А вот удаление происходит через официальный запрос на почту info@archive.org, в котором владелец сайта должен подтвердить свои права на домен и попросить скрыть накопленные копии из публичного доступа.

Самый популярный совет, как посмотреть удаленную страницу в интернете, звучит так: “идите в кэш браузера”. Этот совет – уже давно нерабочий. Поисковые системы давно не кэшируют контент. Дело в том, что раньше интернет-соединение было нестабильно и данные кэшировались, чтобы было, что показать пользователю даже в отсутствие связи с сайтом. В начале 2000-х это было действительно полезно: по данным исследований сетевой инфраструктуры того времени, заметная доля веб-страниц загружалась с ошибками или вообще была недоступна в момент запроса, поэтому поисковики показывали сохранённую копию страницы прямо из своей базы.

Сегодня такой проблемы нет. Средняя доступность крупных сайтов превышает 99,9%, а контент активно распространяется через CDN-сети, которые хранят копии страниц на тысячах серверов по всему миру. В этих условиях публичный кэш поисковых систем перестал быть востребованным, поэтому с 2023 года Google постепенно вычистил эту функциональность.

Сегодня работает только локальное кэширование, то есть расширения для браузера или специальные инструменты, которые пользователь устанавливает самостоятельно и которые сохраняют страницы на его собственном устройстве. Таким является, например, SingleFile – расширение для локального сохранения страниц, которое сохраняет полностью всю страницу в один файл. Нюанс один: вам надо сделать это заранее, чтобы в будущем вернуться к сохраненному вами слепку.

Однако некоторые следы в поисковых системах всё же можно найти потому, что они скрываются в метаданных поискового индекса. Иногда это выглядит довольно странно: в результатах поиска вы видите ссылку на страницу и рядом с ней небольшой фрагмент текста, так называемый сниппет., в котором может содержаться нужная вам информация. Но когда вы переходите по ссылке, оказывается, что страница уже недоступна или на ней размещён совсем другой текст.

Причина в том, как работает индексация сайтов. Крупные ресурсы – новостные порталы, популярные блоги, интернет-магазины – поисковые системы обходят очень часто. Роботы могут проверять такие сайты несколько раз в день, потому что там регулярно появляется новый контент. Но для небольших сайтов такой частый обход просто не нужен. Если сайт редко обновляется, поисковый робот может заходить туда раз в несколько недель или даже реже. Иногда новый обход происходит только после того, как сам сайт отправит поисковой системе сигнал об обновлении.

В результате между обновлением страницы и обновлением поискового индекса возникает временной разрыв от нескольких дней до нескольких недель. В этот период в результатах поиска ещё показывается старый фрагмент текста — тот, который был на странице во время последнего обхода робота. Поэтому можно увидеть кусочки информации, которые уже удалены с сайта.

В результатах поиска можно увидеть фрагмент старого объявления: «Скачать базу участников Ярмарки Мастеров», «Контактные данные владельца сайта», хотя сама страница уже изменена

Поиск таких следов называется доркингом. Суть метода в том, что поисковый запрос меняется специальным образом, чтобы поисковая система подсвечивала определённые типы данных: тексты, документы, параметры страниц или служебные элементы сайтов. По сути это работа с самим индексом поисковой системы. Этим активно пользуются специалисты по OSINT, чтобы искать открытые резервные копии сайтов, документы с конфиденциальными данными или служебные панели администрирования, случайно попавшие в поисковый индекс. Сегодня тысячи подобных файлов ежегодно обнаруживаются именно через поисковые запросы, а не через взлом систем.

Ещё один неожиданный способ посмотреть следы удалённого контента – нейросети, а точнее большие языковые модели вроде ChatGPT. Для этого важно понимать, как они устроены. Такие модели в обычном режиме не «ходят» в интернет и не проверяют сайты в реальном времени. Они работают на основе огромного корпуса текстов, на котором были обучены. По сути это слепок интернета, сделанный в определённый момент времени.

У этого есть очевидный минус: нейросеть плохо подходит для получения актуальной информации. Если спросить её о событиях, которые произошли совсем недавно, она может просто не знать о них. Именно поэтому у моделей всегда существует так называемая дата отсечения знаний — момент, после которого новые факты в модель уже не попадали. Если прямо спросить у бота, когда он был обучен, он обычно честно сообщает, до какого периода у него есть данные.

Но в контексте поиска удалённой информации это иногда превращается в неожиданное преимущество. Если модель обучалась, например, на данных до 2024 года, а интересующая вас публикация исчезла из интернета в 2025-м, нейросеть может всё ещё «помнить» её содержание. Для модели этот материал по-прежнему существует, потому что он был частью обучающих данных.

Иногда именно так исследователи находят следы удалённых публикаций. Например, журналисты нередко замечали, что нейросети пересказывают тексты старых пресс-релизов компаний или описания продуктов, которые позже были удалены с сайтов. Похожая ситуация возникала и с новостями: бот мог пересказать содержание статьи, которая уже исчезла из открытого доступа после редактирования или удаления.

Однако здесь есть важное ограничение: большие языковые модели умеют не только воспроизводить информацию, но и «достраивать» её. В профессиональной среде это называют галлюцинациями модели. Если нейросеть не уверена в фактах или в обучающих данных не хватает информации, она может сформулировать правдоподобный, но полностью вымышленный ответ. Это происходит потому, что задача модели – не проверка фактов, а генерация наиболее вероятного продолжения текста. Проще говоря, нейросеть стремится дать ответ, который статистически выглядит наиболее убедительным и ожидаемым в разговоре. По данным исследований ряда университетов, современные модели могут ошибаться или придумывать детали в заметной доле сложных запросов. Например, исследование, проведенное силами BBC показало, что искусственный интеллект ошибается в 45%. При этом в 31% случаев проблемы были связаны с выдуманными источниками.

Поэтому не забывайте, что мы ищем следы на песке, которые со временем искажаются. И ни парсинг, ни эхо в метаданных, ни нейросети не гарантируют вам полную истинность информации. Но это все равно любопытные улики :)

С вами была Академия Кодебай. Мы показали вам лишь малую часть того, что умеет современная разведка по открытым данным. Чтобы сделать ваши навыки более эффективными и системными, приходите на 4-месячный курс «OSINT: Технология боевой разведки».

“Машина в прошлое”

“Индекс-эхо” в поисковых системах

Базы данных нейросетей