Офтоп
Petr

В поисковую выдачу «Яндекса» попали документы Google Docs

Поисковая система «Яндекс» проиндексировала документы Google Docs, находящиеся в публичном доступе.

Обновлено 5 июля: Часть неприватных документов в Google Docs была проиндексирована и другими поисковыми системами. Сотрудники «Яндекса» изъяли эти ссылки из выдачи и обратились в Google с предложением обратить внимание на ситуацию.

0
102 комментария
Популярные
По порядку
Написать комментарий...

Яндекс индексирует всю открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, Яндекс не индексирует, даже если они находятся в открытой части интернета.

В среду вечером в службу поддержки обратились пользователи с жалобами на проблему доступности файлов на docs.google.com. Наша служба безопасности связывается сейчас с коллегами из Google, чтобы обратить их внимание на то, что в этих файлах может оказаться приватная информация.

35

Проиндексированы документы, на которых нет ссылок! Каким образом они попали в базу Яндекса? Не через Яндекс браузер случайно? robots.txt тут вообще не причём. Какие ещё документы и данные, на которых нет ссылок, могут оказаться в базе Яндекса ?

8

они еще и через мобильные приложения (яндекс-такси, яндекс-навигатор, яндекс-карты) могут палить clipboard мобильный... куча способов, короче

0

А в чем удивление? Они используют все источники информации о новых страницах. А вы все верите в индексацию только через ссылки?

0

А такой вопрос — Яндекс браузер каким то образом собирает данные для большого поисковика Яндекса?

3

Комментарий удален

Тот случай когда IE5 оказался лучше всех

0

Оффтоп. Денис, у вас в опросах текст поплыл в этой статье - https://vc.ru/41445-kak-ya-zapustila-biznes-na-podarkah-realizaciya-idei-oblegchayushchey-muzhchinam-zhizn-poshagovyy-plan

0

Не только яндекс браузер. Везде где есть гугл аналитика, яндекс метрика, всякие лайки fb и vk, расширения для браузера, - вся информация идет в дело.
Эти штуки давно встраиваются в мобильные и веб приложения.

1

Конечно. Для этого его создали и продвигают в массы

1

robots.txt - это запрет сканирования, а не индексации. Запрет индексации это noindex/X-Robots-Tag. Наоборот нельзя запрещать сканирование в robots.txt.

3

Комментарий удален

Можно считать ссылку с какой либо другой страницы, которую возможно сканировать. Т.е. из-за запрета сканирования ПС не знает что ссылку нельзя индексировать, и в итоге может выдать её в результатах поиска. Поэтому если что то на 100% не надо индексировать нельзя запрещать сканировать.

0

Надо признать у других поисковиков давно так

1

Нет. Есть большая разница между документами, на которые ссылки выкладываются публично и документами, на которые ссылки пересылаются только в личных сообщениях.

1

А еще вы добавляете в индекс непубличные адреса, которые пользователь открывает в вашем браузере.

1

Любой поисковик, получив сигнал из системы аналитики или иных доступных ресурсов об активности на пока неизвестной ему странице, добавит URL в очередь обхода. Так индексируются новые страницы. Пользуйтесь meta noindex/nofollow или фильтруйте роботов, чтобы непубличные адреса оставались непубличными.

0

Не любой. И на google docs очевидно нет аналитики от Яндекс

0

Не любой, но любой, стремящийся расширить свою поисковую базу.
Я специально уточнил - "или иных доступных ресурсов".
Яндекс наверняка использует информацию о переходах пользователей Браузера по незнакомым ему URL. И если эти URL окажутся не запрещенными к индексации - он их съест.

Кстати, как тут уже писали, сам Google ничего плохого в поиске по Gdocs не видит и индексирует их.

0

Нормаль так гуглу поднасрали, жаль, что обычных людей задели

0

Возможность перейти во ссылке без ввода логина и пароля, не означает публичности ссылки. Ссылки на гугл.документы уникальны и доступны только автору документа и тем с кем он поделился, но не всему интернету, если их специально не публиковать на каких-нибудь открытых сайтах. Как эти ссылки оказались в индексе у Яндекса, если они были только у ограниченного круга людей и не публиковались открыто? Надо полагать, Яндекс бразуер просто их эээ... позаимствовал и передал на индексацию и дальше в публичный доступ. На этом Яндекс ловили и раньше. Корпорация добра не изменяет себе.

0
Уполномоченный файл

А вот что еще в выдачу попало

15

Хз я давно голубей юзаю дешевле выходит и вроде как старообрядчески

8

как там с пингом и потерями пакетов? Стоит переходить?

5

Все, Яндекс очухался :) кто что успел скачать?

2

Ну самое важное я успел сохранить)

56

илюхи?)

2

БОБРы :)) бабы особо быстрого реагирования

16

ахаха))

0

"еще бы не VIP за 5000 р." - смищно)

3

а что значит "надо зарядить"? там андроиды?

2

мусорская табличка проституток, кто им платит

2

Ага зарплата дизайнеров, а снайпер из ЧВК наверно охраняет этих дизайнеров

2

400 долларов за месяц чет не так и много)

0

лояльная программа)

0

Не только инстаграм) Там ж дофига вкладок)

1

вау.. про инстаграмм блогеров - крутая работа

0

сохранил себе

0

Ну первый список давно известен: https://ebanoe.it/2016/07/29/it-hr-sect/

0

В проиндексированных документах уже веселье. Народ друг с другом переписывается.

5

РКН, сосатб!

4

Непонятно, почему это все преподносят как фейл Яндекса, хотя очевидно, что это фейл людей, которые зачем-то хранят чувствительную информацию в общедоступных документах (или доступных по ссылке), а потом публикуют эту ссылку где-то в публичном месте.

Оно же не только в выдаче Яндекса, оно у кого угодно, хоть у Дакдакгоу.
https://duckduckgo.com/?q=%D0%BF%D0%B0%D1%80%D0%BE%D0%BB%D0%B8+site%3Adocs.google.com&ia=web

4

суть проблемы, если я понял пр., в том, что люди, возможно, расшаренные ссылки не выкладывали никуда, а просто, например, открыли в фсбраузере от яндекса

4

А они проверяли свои «нигде не опубликованные» документы в других поисковиках? :-)

0

я нинай, это просто домыслы мои )

0

В других поисковиках есть только "где-то опубликованные документы". Разумеется, в выдаче Я они тоже есть. Но выдача Я слегка шире.

0

У Дакдакго использует, среди прочего, поисковую выдачу Яндекса, так что это не сильно удивительно, что то, что есть в Яндексе есть и в DDG.

0

Сами посмотрите у дакдакгоу в выдаче сплошные инструкции и подобные файлы на которые есть ссылки в интернете, у Яндекса же в выдаче были совсем другие файлы.

0

ребята, crawling, индексация и классификация документов занимает ДНИ если не недели. Не мог яндекс взять и за час облететь все гугл-доки и начать их выдавать. А значит все эти доки УЖЕ БЫЛИ В ИНДЕКСЕ, просто вчера кто-то случайно накатил их в продакшен :)))

Так что делайте выводы. Яндекс наверняка палит нас через:
1) Яндкс-браузер
2) Яндекс-почту
3) Мобильные приложения (такси, карты, навигатор вполне могут мониторить "буфер обмена")
4) Пунто-свитчер

Я никого не оправдываю, если ты выложил в паблик гул-док - ты сам д*олбоеб, никто не спорит. Просто задумайтесь, как нас мониторят. Не только Гугл и Фейсбук - Яндекс тоже. Это не плохо и не хорошо, просто надо понимать.

PS. но все запомнят только скандал с тинькофым. Я яндекс так и продолжит все палить

4

Комментарий удален

Вы просто говорите "сам дурак, живи в лесу". Яндекс пи$дит конфиденциальную информацию. Эти ссылки не были доступны публично. Это проблема. Своими словами, вы как будто оправдываете это - дескать все так делают.

2

Комментарий удален

Юрочка, я понимаю, что в вашем окружении принято кукарекать и не осуждаю вас. Я так же заметил, что вы тут во всех коментариях отписались в схожем ключе, похоже вашу кукарекалку неплохо припекло, за это я вас тоже не осуждаю. Вина яндекса тут многим довольно очевидна. Но не вам. Оставайтесь вы при своем мнении, пожалуйста. Считайте себя самым умным, понятилвым и справдливым да ради бога. Главное чудаком не будьте. И повежливее, повежливее.

2

Комментарий удален

Вы как-то игнорируете главный вопрос - откуда Яндекс узнал об этих ссылках? <- Вот этот вот вопрос, Юра, вот этот вот. Откуда в индексе ссылки, которые никогда не публиковались в открытых источниках. Вопрос не в том, что все, что доступно по ссылке, теоретически может быть проиндексировано, это понятно и ежу. Вопрос в том, как Яндекс нашел эти документы? Где открытый источник ссылок на них? А его нет. И в статье не говорится что он есть. Там говорится лишь, что если бы был доступ по паролю, то это бы защитило документ и это действительно так. А еще помогло бы, если бы у этих пользователей не стоял Яндекс Браузер. Тогда бы Яндекс не узнал об этих ссылках. И не проиндексировал. И ссылку, которую знаю только я и ты, знали бы только я и ты, а не весь интернет. А еще схожим образом себя ведут трояны.
И да, я буду и дальше утверждать, что Яндекс виноват.

2

Комментарий удален

на хабре как раз пишут, что палят через браузер (см комменты). а на прямые вопросы журналистов, откуда Яндекс взял ссылки пресс-служба компании старательно не отвечает (см медузу).

короче, хватит истерить и защищать с пеной у рта, яндекс справится без тебя, поверь

2

Комментарий удален

Логично что поисковая система настроена так, чтобы максимально расширить свой кругозор. В чем блять проблема, объясните.

В этом и проблема. Если система настроена на то чтобы максимально расширить свой кругозор, и для этого все способы хороши, то что позволяет тебе полагать, что в один момент документы из твоей папки "Мои документы" не окажутся в индексе Яндекса? Они ж у тебя там поди не под паролями лежат? Чем *принципиально* отличается возможность урла с твоего компьютера попасть в индекс, от возможности документа с твоего компьютера попасть в индекс? Пунктом в лицензионном соглашении браузера?

1

я нигде не "ругал яндекс", хватит выкручиваться, ты не перед мамой оправдываешься.

я как раз написал - в 21 веке все всех палят, и не надо об этом забывать. И раз выложил доки в паблик - сам долбоеб.

0

Комментарий удален

для таких как вы я вставил фразу "Это не плохо и не хорошо, просто надо понимать."

1

Комментарий удален

минус был за хамство и "кукарекать".

А "компетентные люди" - это, я полагаю, вы?

PS. и, кстати, я нигде не пишу про "все пропало", успокойтесь уже и перечитайте

0

Комментарий удален

Только недавно забыли, что случилось с Trello...

5

Поисковая система «Яндекс» проиндексировала документы Google Docs

А она не может? Это не проблема Гугла разве?

5

Нет не проблема гугла. У тебя есть секретная ссылка. Ты её нигде открыто не публиковал. И вдруг она в поиске Яндекса. Как так? Разгадка простая, - Яндекс берет и передает все ссылки, которые ты открываешь в его Я.браузере, на индексацию в свой поисковик. Но какого черта? Это не публичные ссылки. Так что проблема не у Гугла.

0

После всех разборок это действительно не проблема гугла, но и не Яндекса

Потому что любой документ имеет ID, который можно подобрать. И даже после индексации документы можно найти только по запросам.

Доступ по ссылке - это добровольный способ снизить защищенность документа, даже внутри компании эту ссылку может получить любой. В тех компаниях, с которыми я знаком, доступ по ссылке строго запрещен, только персонально, и всегда считал это нормальным

Даже есть более менее безопасный вариант - доступ всем по ссылке, но в корпоративном домене

Вообще пользоваться бесплатными сервисами Гугла, делать доступ по ссылке для всех и чему-то потом удивляться - за гранью добра и зла по мне

0

Комментарий удален

Лучше бы группы ВК индексировать нормально, как Гугл

5

Ну и что?
Раз они в публичном доступе, вероятно, ниче страшного. Они уже давно были проиндексированны Гуглом.
Ну, а то, что некоторые хранят пароли в публичном доступе - тоже, не новость, в общем-то.

2

Тут дело в том, что открылись ещё и доки с доступом по ссылке

4

Комментарий удален

Ещё раз.
Речь о документах "в публичном доступе". Не в ограниченном. Не в приватном. В публичном.

Вы точно уверены, что это самое безопасное, что можно придумать для хранения паролей?

0

не пудри мозг, публичный ≠ всеобщий. доступ по ссылке всего лишь значит, что к доку могут попасть только те, у кого эта ссылка есть.
яндекс не имеет права передавать своим клиентам такую информацию.

11

Комментарий удален

А Гугл имеет? Там тоже ищется, и до сих пор

0

Да не ищется. В гугле ищутся те ссылки которые реально были опубликованы публично.

1

Пруфов не будет

0

Комментарий удален

Прошу прощения. Вечер. Туплю.

1

Комментарий удален

Документ доступный по оверхешной ссылке сложно назвать публичным.. Сами так регулярно шарим для своих.

0

Таки согласен.
Косяк Гугла.
Но я ж делаю вывод по тексту статьи. А там про ограниченный доступ, вроде, ни слова.
Только про публичный.

1

Да нет там косяка гугла. Файлы с доступом по ссылке проиндексированы только те, на которые есть ссылка в сети. Специально проверил свои файлы с доступом по ссылке, которые не были опубликованы. Их нет в выдаче. Зато есть те, на которые и так есть ссылки.

А яндекс зря вынес весь свой индекс. У гугла спокойно можно продолжать искать по сайту гугл доков. И судя по всему, работает это именно так, как и должно.

1

С одной стороны - да.
Очевидно, что Яндекс не выдумывает ссылки, по которым надо индексировать, а где-то их бирет. И если ты сам опубликовал ссылку в сети, то документ считается публичным. Все работает, как задумано.

С другой - задумано не совсем правильно.
Ты можешь передать ссылку по почте или мессенджеру.
И вот тут уже вопрос не однозначный.
Никто не даст гарантии, что любой почтовый сервис, используемый получателем, или мессенджер завтра не начнет индексировать ссылки из писем.

Ну, гугл же анализировал письма, почему бы Яндексу их не индексировать? Ну, теоретически.

Наверное, нужна дополнительная настройка индексировать - не индексировать для писем с ограниченным доступом.

0

Яндекс не выдумал ссылки, а проиндексировал те страницы на которые заходили через их браузер. В этом и косяк Яндекса. И уже не в первый раз такое.

0

Если яндекс и правда индексирует ссылки из браузера, то этоне косяк яндекса. Это хорошо для продукта и экосистемы.

Что мешало гуглу сделать индексируемыми только доки с доступом для всех?
Хочешь индексацию - общий доступ, а там уже делись ссылками, как хочешь. Ограниченный доступ - не индексируем.

1

В чем сдельная полезность для продукта и экосистемв? В результате подобных действий в открытый доступ попадает информация которой там быть не должно.

Вам не кажется это не логичным? Делать недоступным для роботов файл по прямой ссылке который должен быть доступным всем у кого есть прямая ссылка на этот файл.

0

Полезность в том, что пользователь яндекса может найти больше инфы по запросу. Это какбэ прямое улучшение качества поиска. Разве нет?

По второму вопросу.
Посмотрел, как это устроено в гугле.
При общем доступе он пишет, что доступно всем и для поиска.
При доступе по ссылке - про поиск ничего не говорится.

А дальше чисто техника.
Тот же robots.txt, как было замечено, не может запретить поисковикам индексировать. Он может только рекомендовать не индексировать.
Прямая ссылка сформирована. Документ по ней доступен без входа в аккаунт. Значит сервер по этой ссылке отдаёт 200ок.
Значит документ может быть проиндексирован.

Чтоб этого не происходило, нужно или закрывать ссылку паролем, или генерировать контент скриптом.
Помним старую проблему, что динамичный контент не индексируется? Сайты ещё борются с этим, кто как умеет.
В гуглдоксе так и происходит. Контент генерируется скриптом.
Но при этом, зачем в код документа передаётся контент для индексации для меня - загадка.

И нет, я не вижу противоречия в том, что контент для просмотра ЧЕЛОВЕКОМ по предоставленной ему ссылке не доступен для индексации.

0

Теперь несложно назвать =)

0

Пошел дождь.

3

К утру нас ждёт интересная подборочка инсайдов

3

В очередной раз понимаешь, что robot.txt не является защитой от индексации.

1

А должен?

robot.txt — это _рекомендация_ к роботу, а не руководство к его действию. Кто-то прочитает robot.txt, а кто-то проигнорирует. Если есть физическая возможность что-то проиндексировать — скорее всего, это будет кем-то проиндексировано.

0

* robots.txt

0

Все! Прикрыли лавочку)

1

так в доках ВК аналогично
люди не умеют в приватность

1

Помимо всего, Яндексу не нравится конкуренция с Гугл. Было время, эти медиакомпании о чем то договорится не могли.

Да вот, как понимать, что по одному из запросов с текстом ℅овно как раз в выдаче на картах офис Гугла в России в Я.Картах выдавлся?

1

Только что закрыли эти все документы похоже. Я успел поулыбаться с людей. Особенно с тех, кто закрыл публичный доступ, но не подумал, что есть функция посмотреть сохранённую копию.
Яндекс конечно молодец, что прикрыл эту возможность. Но думать надо своей головой. Есть и другие поисковики. В общем безопасность должна быть безопасной.

0

Вы путаете причину и следствие. Ссылка приватная. Её нельзя подобрать, угадать. Она доступна автору и тем кому он её явно передал. Яндекс НЕ нашел эту ссылку в публичных местах. Он нашел её на компьютере пользователя. И украл. Проблема именно в этом.

2

Согласен. Просто так приватная ссылка не всплывёт.
Но доступ по ссылке всё равно менее безопасно, чем доступ для отдельных групп пользователей. Несколько лет десятки человек в моей компании используют Google.Docs и мы как-то легко обходимся без того, чтобы давать доступ по ссылке к документам с кучей паролей.

Я лишь говорю, за безопасностью всегда нужно следить с обеих сторон.

0

Комментарий удален

отличный слив, чтобы пользователи вирусов нахватали

0

Комментарий удален

MAC адреса процентов у 60% из списка. По остальным не определить где это вообще. Российских там 4 шт.

0

Комментарий удален

знаю организации, которые хранят двнные компании там. Не в домене gsuite, а в бесплатном потребительском гугл-диске 🙈

0

какая разница то? Защита там одинаковая

Тут нужно или смириться, что эти данные могут утечь (хакнут все, рано или поздно). Либо шифровать, либо использовать облако, которое шифрует, либо использовать свое собственое облако, либо использовать внутреннюю файлопомойку

0

gsuite наружу файлы с доступом по ссылке даже не отдает, ты должен быть частью организации

0

если они паблик? или если они прописаны "доступ через прямую ссылку"?

еще как отдает. Это ж руки кривые, а не гугл кривой. Ему что - он железка

0

можно запрещать публичные документы

0

Конечно можно. Осталось мелочь - руки выпрямить.

И вообще не иметь публичных документов с непубличной информацией

0

у меня с этим порядок

0

Я ж не про вас

0

Яндекс вообще молодцы, на две недели по ошибке вышвырнули сайт из индексации. Спасибо Яндекс

0

Я правильно понимаю, что у Яндекс есть специальный поисковой сервис для Товарища Майора? как тонко намекнул @plushev // Через поиск Я.Майор можно найти даже то, что писали в Телеге, если засветили в Яндекс.Браузере?

0

Комментарий удален

Читать все 102 комментария
Корпоративный проект в Казахстане

Юридическая фирма «Надмитов, Иванов и Партнеры» успешно представляла интересы приобретателя по сделке приобретения 100% долей в уставном капитале общества, крупного производителя битумных материалов в Казахстане, регулируемой по российскому праву.

На сайтах с эквайрингом от ПСБ появился Yandex Pay

Покупатели с аккаунтом «Яндекса» смогут оплачивать покупки, не вводя данные карты.

Минэкономразвития РФ приняло предложения РСПП по совершенствованию рынка интеллектуальной собственности

На актуализации плана дорожной карты ТДК (трансформация делового климата) «Интеллектуальная собственность» в соответствии с пожеланиями бизнес-сообщества настоял первый заместитель председателя правительства Андрей Белоусов.

«Яндекс» попросил ЦБ «принять меры» из-за фальшивого сайта «Яндекс-банка» Статьи редакции

Домен зарегистрировало частное лицо на следующий день после объявления о переименовании «Акрополя».

Илон Маск отправил сотрудникам письмо о риске банкротства SpaceX из-за медленного производства двигателей — CNBC Статьи редакции

Компании нужно ускориться, чтобы запускать ракеты минимум раз в две недели в 2022 году, написал Маск.

Эксперимент: оформляем банковские карты без бумажных документов

Оформление затянулось, но проект все равно продолжили развивать.

Онлайн-санаторий для сотрудников: как помочь команде справиться с выгоранием

Чтобы поддержать команду, мы собрали эффективные инструменты для борьбы с эмоциональным выгоранием и объединили их в стенах виртуального санатория «Источник». Рассказываем, как пришли к созданию собственной экосистемы для поддержки сотрудников, и почему это действительно важно.

Бакальчук резко ответила на жалобы продавцов Wildberries во время сессии форума "Россия зовет"
О прекрасном: графовая аналитика в 3D

Порой Data Scientist’ам приходится иметь дело с графами. Чаще всего это дело не такое уж и сложное, но бывают разногласия, которые начинаются при представлении результатов заказчику данного графа, ведь у каждого своё представлении о прекрасном. Особенно, когда дело касается расположения узлов.

null