ВТБ, «Сбербанк», официальный сайт мэра Москвы — утечки данных пользователей продолжаются

В связи с последними скандалами по утечке персональных данных решили написать статью, где подробно объясним, почему это происходит и как с этим бороться. Рассказывает SEO-специалист, эксперт по поисковым системам в Rush Agency Павел Медведев.

Павел Медведев
Павел Медведев

На фоне всеобщей истерии в ленте по поводу «Google Документов» и Power Bi я ввёл старый запрос 2011 года, чтобы посмотреть, изменилась ли ситуация, и ужаснулся.

Раньше проблемы были в основном у мелких интернет-магазинов, сейчас информацию сливают и такие гиганты, как ВТБ, «Сбербанк», департамент транспорта Москвы, агрегаторы авиабилетов и многие другие. Я считаю, это связано с тем, что из-за кризиса многие хорошие специалисты и разработчики переориентировались на Запад, и качество кадров в ИТ снизилось. Примеры данных, которые можно найти в поисковой выдаче:

Распечатки билетов с travel.vtb.ru
Распечатки билетов с travel.vtb.ru
Данные транзакций через «Сбербанк»
Данные транзакций через «Сбербанк»
«Сбербанк»
«Сбербанк»
Пример пользовательских данных из заказа интернет-магазина
Пример пользовательских данных из заказа интернет-магазина
«Единый транспортный портал Москвы», dt-window.mos.ru
«Единый транспортный портал Москвы», dt-window.mos.ru
«Единый транспортный портал Москвы», dt-window.mos.ru
«Единый транспортный портал Москвы», dt-window.mos.ru
«Единый транспортный портал Москвы». Можно даже скачать сканы документов, паспортов пользователей в высоком разрешении
«Единый транспортный портал Москвы». Можно даже скачать сканы документов, паспортов пользователей в высоком разрешении

Вышеописанные три домена ВТБ, «Сбербанка» и «Единого транспортного портала Москвы» пренебрегают элементарными требованиями защиты данных — у них даже отсутствует файл robots.txt.

Как могло произойти так, что персональные данные — «Google Таблицы», отчёты с финансовыми показателями компаний в Power Bi могли попасть в выдачу поисковых систем?

Поисковые системы не могут получать доступ и читать информацию со страниц, которые требуют авторизации.

Современные системы требуют сложные пароли, пользователям не всегда удобно запоминать столько паролей, для их удобства доступа к личным страницам создатели сайтов придумали документы с уникальным длинным адресом из случайного набора символов, который невозможно угадать или получить перебором, пример: сайт.ру/проверить-статус-моего-заказа/orjY4mGPRjk5boDnW0uvlrrd71vZw9kphf8eGbhlTpS4q9cvHzFNngSdNNIG8H5Lt3. Проверяем защиту приведенного выше URL на предмет перебора:

Если быть более точным, то 18 миллиардов триллионов триллионов триллионов триллионов триллионов триллионов триллионов триллионов лет для перебора всех возможных вариантов. Звучит надёжно.
Если быть более точным, то 18 миллиардов триллионов триллионов триллионов триллионов триллионов триллионов триллионов триллионов лет для перебора всех возможных вариантов. Звучит надёжно.

Как это работает: вам на email или в SMS приходит сообщение с такой ссылкой, и вроде бы логично, что только вы можете воспользоваться ей для просмотра, корректировки своих данных.

Но есть много способов, как поисковая система может узнать о ссылке — например, вы на каком-то полуприватном затерянном на окраинах интернета форуме, где сидите только вы, и пять ваших близких знакомых поделились этой ссылкой.

Поисковые системы регулярно переобходят даже самые малопосещаемые и никому неизвестные сайты, если они доступны для индексации роботам. Такая ссылка рано или поздно проиндексируется, и страница с личной информацией попадёт в индекс. В 2011 году был скандал с попавшими в выдачу SMS «Мегафона». Тогда я даже провёл семантический анализ текстов этих SMS.

Мало кто хотел бы, чтобы эта информация попадала в общий доступ, то есть ссылки точно на них не расставляли. Много измен, думаю, тогда было раскрыто. Дальше я в том же 2011 году решил проверить, как хранят персональные данные другие сайты, и сразу же обнаружил множество открытых данных с заказами в интернет-магазинах. Новость тогда прогремела, и запрос для поиска попал в топ-20 самых популярных запросов дня по Liveinternet. Пользователей почему-то больше всего заинтересовали данные покупателей секс-шопов. Хотя если человек покупал в магазине лопату и из-за этого утекли его ФИО, адрес, телефон и иногда паспорта — по-моему, такой же вопиющий провал.
Мало кто хотел бы, чтобы эта информация попадала в общий доступ, то есть ссылки точно на них не расставляли. Много измен, думаю, тогда было раскрыто. Дальше я в том же 2011 году решил проверить, как хранят персональные данные другие сайты, и сразу же обнаружил множество открытых данных с заказами в интернет-магазинах. Новость тогда прогремела, и запрос для поиска попал в топ-20 самых популярных запросов дня по Liveinternet. Пользователей почему-то больше всего заинтересовали данные покупателей секс-шопов. Хотя если человек покупал в магазине лопату и из-за этого утекли его ФИО, адрес, телефон и иногда паспорта — по-моему, такой же вопиющий провал.
ВТБ, «Сбербанк», официальный сайт мэра Москвы — утечки данных пользователей продолжаются

Системы аналитики (счётчики, которые устанавливают на каждой странице сайта для исследования поведения посетителей на нём). Самые популярные в России — «Яндекс.Метрика» и Google Analytics.

Заходим в настройки любого счётчика «Метрики» и видим по умолчанию такие опции:

То есть все просмотренные пользователями страницы по умолчанию отправляются на индексацию, если не указать запрет
То есть все просмотренные пользователями страницы по умолчанию отправляются на индексацию, если не указать запрет

Но даже если установить запрет, приватные страницы всё равно попадают в индекс. Потому что это один из множества источников данных поисковых систем.

У Google есть браузер Chrome, у «Яндекса» — «Яндекс.Браузер». На них приходится более 70% всех посетителей.

Устанавливая браузеры, вы соглашаетесь с возможной обработкой, отправкой браузером анонимных данных о просмотрах и так далее. То есть это вполне легальный способ собрать большую часть когда-либо просмотренных пользователями страниц.
Устанавливая браузеры, вы соглашаетесь с возможной обработкой, отправкой браузером анонимных данных о просмотрах и так далее. То есть это вполне легальный способ собрать большую часть когда-либо просмотренных пользователями страниц.

Когда вы скачиваете какую-нибудь бесплатную программу, часто с ней агрессивно навязываются программы и плагины для браузера от поисковых систем, которые многие специалисты расценивают как дополнительный канал для анализа трафика и поведения пользователей.

Помимо этого, поисковые системы могут покупать анонимизированные данные о трафике, просмотренных сайтах или страницах, как это делает известный сервис SimilarWeb.

Ваша секретная ссылка уже не выглядит такой защищённой?
Представьте ситуацию: вы купили авиабилет с вылетом через полгода, вам пришла SMS с ссылкой для просмотра и редактирования информации в личном кабинете. Вы перешли на неё в телефоне, проверили и забыли.

Тем временем ваш мобильный «Яндекс.Браузер», Android или счётчик метрики сообщил поисковику, что появилась неизвестная ранее страница, робот проверил — страница работает, проиндексировал её через какое-то время.

Потом злоумышленник вбивает в поиск запрос вроде «билет на Бали октябрь изменить бронирование» — попадает в ваш личный кабинет, переписывает фамилию на свою и через полгода улетает вместо вас. (Можно представить, что и такие сайты существуют, которые даже не предупредят об изменении и не запросят дополнительное подтверждение или авторизацию.)

Легально ли, что поисковики собирают такую информацию

Поисковый робот не знает — персональные ли данные в файле. Коммерческая ли тайна в таблицах с финансовыми показателями или, наоборот, вы хотели бы делиться этой информацией со всеми. Он переходит по страницам, доступ к которым не закрыт владельцами сайта.

Часто структура и навигация сайтов очень запутанные, используются различные хитрые JavaScript, так что попасть на полезные страницы по ссылкам с главной страницы поисковикам бывает просто невозможно. В этом случае выглядит логичным получать адреса страниц для индексации из максимального числа источников.

Кто виноват в сложившейся ситуации

Я считаю, что 80% вины лежит на владельцах сайтов, которые не обеспечивают должного качества разработки и оптимизации. Как специалист по поисковой оптимизации сайтов с 12-летним опытом могу сказать, что большинство сайтов до доработки SEO-специалистами выглядят плачевно, владельцы словно живут в параллельном мире без киберугроз, без поисковых систем, ботов, которые могут проиндексировать личные данные пользователей.

20% отдал бы поисковикам за то, что они недостаточно освещают свои механизмы ранжирования и индексации. Часто сталкиваешься с непониманием от разработчиков сайтов: «Как же поисковые системы проиндексируют страницу, ведь у них нет ссылки этой страницы?». Такие же вопросы часто слышу даже от специалистов по SEO.

Большинство современных разработчиков считает, что документ, доступный по длинной уникальной ссылке, — надёжно защищён и никогда не попадёт в индекс. Рекомендую представителям поисковых систем больше упоминать на своих профильных конференциях и вебинарах для профессионалов о том, что любая страница, доступная без авторизации, может рано или поздно попасть в индекс.

Ещё есть проблема в том, что разные поисковые системы по-разному используют директивы, их рекомендации по индексации иногда противоречат и взаимоисключаемы. То есть разработчики, сделав всё по инструкции Google, будут удивлены, когда в «Яндексе» директивы, наоборот, перестали работать, из-за чего в индекс попало множество документов, которые не должны были индексироваться.

Последний случай с индексацией персональных данных в «Google Документах»

Пароли и личные данные всегда попадали в индекс, можно было найти эти данные, просто не в таких масштабах. Я связываю последнюю утечку с ростом популярности самих сервисов Google — больше людей пользуется таблицами, теперь это не только айтишники, но и воспитатели детских садов, мамочки, составляющие план покупок. То есть это уже не только продвинутые пользователи.

Мои рекомендации для владельцев и разработчиков сайтов

  • Любые чувствительные данные максимально закрывать от посторонних с помощью авторизации.
  • Всегда запрещать роботам индексировать любую конфиденциальную информацию. Причём использовать не только один из рекомендуемых поисковой системой способов, а дублировать, используя все методы защиты, такие как robots.txt, clean-param, meta-noindex.
  • Проверять, чтобы методы защиты были универсальными и работали во всех поисковых системах.
  • Помимо этого, определять роботов по user-agent и блокировать им доступ к любой приватной информации, отдавая ответ сервера 4хх.
  • Обращаться к профессионалам SEO для экспертизы поисковой оптимизации сайта.

Рекомендации для поисковых систем и крупных сервисов вроде PowerBi, «Google Документов»

Чаще прислушиваться к мнению и просьбам специалистов по SEO. Например, в «Яндексе» работа некоторых директив индексации отличается от Google — из-за чего приходится делать сложные схемы обхода, например, с междоменными canonical. Из-за этого у мелких сайтов без высококлассных специалистов могут быть проблемы — закрытые страницы массово попадают в индекс, а там могут быть и частные данные.

Google же считает, что она единственная в мире поисковая система и не учитывает при разработке своих сервисов что есть такие системы, как «Яндекс» с их продвинутыми алгоритмами индексации. Из-за этого в индекс попали документы Google, доступные только по ссылке.

Если бы разработчики Google были более компетентны и учитывали работу всех поисковых роботов, они бы добавили в документы доступные по ссылке запрет индексации с помощью метатега robots noindex. А также блокировали бы доступ поисковых роботов к таким документам.

Также нужно выдавать предупреждение при открытии доступа по ссылке — что наличие ссылки только у вас не значит, что о ней никто не узнает — множество программ, браузеров, плагинов, счётчиков, скриптов собирают информацию и только из разработчикам известно, как они её хранят и куда дальше направляют.

Обновлено редакцией 14 июля. Представители «Сбербанка» сообщили vc.ru, что банк разбирается с описанной в статье ситуацией. «Уже сейчас можем сказать, что данных, которые могут нанести ущерб банку или клиентам здесь нет», — сказали они.

Обновлено редакцией 17 июля. «ВТБ провел расследование в связи с возникшей ситуацией. Установлено, что инцидент произошел по вине третьей стороны. При этом информация, относящаяся к банковской тайне, не была передана третьим лицам. Безопасность данных наших клиентов полностью защищена», — сообщили vc.ru в пресс-службе ВТБ.

9191
148 комментариев

Автор данного комментария предоставляет информацию лишь в ознакомительных целях и никак иначе.
Так как они находятся в общем доступе и предоставлены на всеобщее обозрение.
Никакой пропаганды хакерства и киберприступлений данный комментарий не несёт.
Спасибо за внимание.
(Пунктуация сохранена)
1.SHELL - самые распространенные шеллы это r57shell, c99shell,remview...
Их можно отыскать запросом:
a)intitle:"phpremoteview" filetype:php
б) inurl:"remview.php"
r57shell и c99shell...
2.СVV2 - кредиты, кредитные карточки.
Их можно отыскать запросом:
а)filetype:txt intext:cvv2
б)filetype:txt intext:american express
3.SQL - ДАМП БАЗЫ.
Их можно отыскать запросом:
а)filetype:sql "IDENTIFIED BY" -cvs
4.VNC доступ.
Их можно отыскать запросом:
а)intitle:"VNC viewer for java"
5.Роутеры.
Их можно отыскать запросом:
а)intitle:"SpeedStream Router Management Interface"
6.Принтер сервер и веб камеры.
Их можно отыскать запросом:
а)inurl:webArch/mainFrame.cgi
7.Чужие IP телефоны.
Их можно отыскать запросом:
а)intitle:"Sipura SPA Configuration" -.pdf
8.Фото ч чужих цифровых аппаратов.
Их можно отыскать запросом:
а)index.of.dcim
9.Халявный нортон антивирус.
Их можно отыскать запросом:
а)inurl:"GRC.DAT" intext:"password"
10.Пассы -
inurl:"password.dat"
filetype:password.dat
filetype:dat passwd
filetype:dat passwd.dat
intext:"password"
11. Поисковые запросы веб камер:
inurl:MultiCameraFrame?Mode=
inurl:"ViewerFrame?Mode="
inurl:netw_tcp.shtml
intitle:"supervisioncam protocol"
inurl:CgiStart?page=Single
inurl:indexFrame.shtml?newstyle=Quad
intitle:liveapplet inurl:LvAppl
inurl:/showcam.php?camid
inurl:video.cgi?resolution=
inurl:image?cachebust=
intitle:"Live View / - AXIS"
inurl:view/view.shtml
intext:"MOBOTIX M1"
intext:"Open Menu"
intitle:snc-rz30
inurl:home/
inurl:"MultiCameraFrame?Mode="
intitle:"EvoCam" inurl:"webcam.html?quot;
intitle:"Live NetSnap Cam-Server feed"
intitle:"Live View / - AXIS 206M"
intitle:"Live View / - AXIS 206W"
intitle:"Live View / - AXIS 210"
inurl:indexFrame.shtml Axis
inurl:"ViewerFrame?Mode="
inurl:"MultiCameraFrame?Mode=Motion"
intitle:start inurl:cgistart
intitle:"WJ-NT104 Main Page"
intext:"MOBOTIX M1" intext:"Open Menu"
intext:"MOBOTIX M10" intext:"Open Menu"
intext:"MOBOTIX D10" intext:"Open Menu"
intitle:snc-z20 inurl:home/
intitle:snc-cs3 inurl:home/
intitle:snc-rz30 inurl:home/
intitle:"sony network camera snc-p1"
intitle:"sony network camera snc-m1"
site:.viewnetcam.com -www.viewnetcam.com
intitle:"Toshiba Network Camera" user login
intitle:"netcam live image"
intitle:"i-Catcher Console - Web Monitor"
inurl:/home/home
intitle:flexwatch intext:"Copyright by Seyeon TECH Co"
intitle:"snc-rz30 home"
intitle: Network camera

26
Ответить
27
Ответить

Кстати говоря, на западе google hacking давно является серьезной угрозой.

4
Ответить

Не совсем понимаю зачем выкладывать практический пример использования... ведь даже барану будет понятно что статья написана для указания на проблемы, которые нужно исправить. Это в интересах всех пользователей рунета, которые пользуются сервисами с некомпетентными сотрудниками.

Предлагаю тебе приложить фото твоей кредитной карты с обеих сторон, ИСКЛЮЧИТЕЛЬНО в ознакомительных целях! Мы всем сообществом обещаем, что эта информация не будет использована в своих меркантильных целях.

5
Ответить

Интересно - кто оперативнее отреагирует и отпишется в комментах?
ВТБ, Сбер или МОС

24
Ответить

Скорее всего, никто.

18
Ответить

ДЦП

4
Ответить