Google: В попадании файлов из Docs в «Яндекс» и другие поисковики не было сбоя Статьи редакции

Google высказала свою позицию по поводу документов из сервиса Google Docs, которые попали в выдачу «Яндекса» и других поисковиков. В компании сообщили, что сервис работает корректно.

Поисковые системы могут индексировать только те документы, которые намеренно были сделаны их владельцами публичными, или когда кто-либо публикует ссылку на документ, владелец которого сделал его доступным для поиска и просмотра всем в интернете.

Вы всегда можете изменить настройки доступа к вашим файлам и установить ограничения: что именно доступно для просмотра, комментирования или редактирования выбранным пользователям.

пресс-служба Google

Вечером 4 июля пользователи «Яндекса» обнаружили, что поисковик и другие сервисы индексируют документы из Google Docs — в том числе те, у которых был включён «доступ по ссылке». В ночь на 5 июля сотрудники «Яндекса» изъяли эти ссылки из выдачи и сообщили в Google о ситуации.

0
44 комментария
Написать комментарий...
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Дмитрий Калашников

Вконтакте что-то никого и не тревожит с их документами.

Ответить
Развернуть ветку
Хантер

Вероятно, что там их никто не хранит!?

Ответить
Развернуть ветку
Дмитрий Калашников
Ответить
Развернуть ветку
Alexander Matveev

А что, для кого-то это не было очевидно?
Доступ к документу открыт для всех, вполне логично что его могут увидеть поисковики.

Ответить
Развернуть ветку
Zoibana

Проблема была в том, что документы, которые были доступны только по ссылке, и эта ссылка нигде в открытом доступе не размешалась, а только пересылалась через мессенджеры и открывалась в браузере получателя, оказалась в индексе поисковых систем,

Ответить
Развернуть ветку
Alexander Matveev

Это не противоречит никаким логическим аспектам или заявленному поведению поисковых сетей. Соответственно, это не баг. Если бы на сайте google docs были созданы нужные манифесты robots.txt, но ПС их проигнорировала, можно было бы лить претензии.

Более того, все ресурсы, с какими бы то ни было уникальными адресами, посещаются в автоматическом режиме вашим провайдером после вас, пауками работающими в связке с браузером и еще бог знает кем.

Даже при расшаривании ссылки в мессенджере, мессенджер делает превьюшку для ссылки, а значит что по ней ходит какой-то паук.

Это все пример классического Security through obscurity (Безопасность через неясность), и он уже давно не термин для гиков https://ru.wikipedia.org/wiki/%D0%91%D0%B5%D0%B7%D0%BE%D0%BF%D0%B0%D1%81%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D1%87%D0%B5%D1%80%D0%B5%D0%B7_%D0%BD%D0%B5%D1%8F%D1%81%D0%BD%D0%BE%D1%81%D1%82%D1%8C

Юзерам давно пора привыкнуть -- размещаешь фоточки в социалке в открытом альбоме, не удивляйся что они попали куда-то. Хотя я и понимаю, что рядовой юзер об этом не думает.

Ответить
Развернуть ветку
Victor Efimov

Никакого отношения к Security through obscurity это не имеет.

Security through obscurity это если бы была веб страница, а внизу незаметная глазу буква "П", на которую нужно было щёлкнуть, чтобы перейти в секретный раздел. Возможно "щёлкалась" бы она каким-то жёстко обфусцированным javascript.Прямо как в фильме "Сеть". И если бы ставка была бы не на то что её не найдут поисковики, а на то что просто никто не догадается её щёлкнуть или что-то искать в поисковиках.

Здесь же полноценный секретный идентификатор, ничем не отличающийся от shared secret или стойкого пароля.

Проблема только в том что в современном веб сложилась традиция не считать URL чем-то секретным, и соответственно, секретные токены в URL передавать нельзя.

Ответить
Развернуть ветку
Alexander Matveev

Нет, и то и другое входит в STO. Неясность логики генерации уникального URL => Security through obscurity

Ответить
Развернуть ветку
Alexii Ivanch

Саня ты олень, потому-что твоя логика никуда не годится.
Если ссылка на док не засвечена в том месте, где ходят поисковые роботы, на форуме или здесь в камментах например... То каким йухЪом она индексируется поисковиком?
Это вообще ни разу не фича.

(Может где-то на 9833 странице "лицензионного соглашения" и написано мелким шрифтом, что расшаренный док автоматом попадёт в индекс других поисковиков, даже если вы никому эту ссылку ни разу не кидали. По факту это тупо кидалово юзера, неприятный нежданчик)

В общем твоя идиотская логика отвратительно смотрится на фоне типа интеллектуальных камментов.
Поэтому от агрументированной дискуссии сразу перейдём к оскорблениям -- ты олень.

Ответить
Развернуть ветку
Alexander Matveev

На твои оскорбления я ответить могу, но не буду. Замечательно, что ты ради этого даже сделал фейковый аккаунт в фейсбуке.

По сабжу: а поисковики где-то обещают, что в поиске будут только те страницы, которые "были засвечены где-то коментах"? Все, что не закрыто под приватный доступ, может попасть куда угодно, включая поисковики. Есть один инструмент, где можно указать, что ты не хотел бы чтобы попало в поиск, это robots.txt. Это официально предоставленное средство поисковиками.

Нужно голову включать, а не вот это вот нытьё, которое тут некоторые льют в коментах.

Ответить
Развернуть ветку
Natalya Balynina

То есть для вас ок, что поисковые машины индексируют личную переписку?

Ответить
Развернуть ветку
Alexander Matveev

Если эта переписка хранится на сайте в открытом виде, то да. Все претензии к тому месту, где вы переписываетесь, а не к поисковикам.

Ответить
Развернуть ветку
Natalya Balynina

Переписку, которая идет через gmail и пр почтовые сервисы. А не "хранится на сайте в открытом виде". К поисковикам никаких претензий, само собой. Но со стороны Google Drive не закрывать индексацию контента по ссылке, которая отправляется в письме и больше нигде, этовсе равно что если бы Google стал давать в выдаче содержимое наших писем.

Ответить
Развернуть ветку
Alexander Matveev

Если бы в Gmail была кнопка "Открыть доступ по ссылке" с подписью "Просматривать могут все, у кого есть ссылка", было бы то же самое. А так не то же самое.

Ответить
Развернуть ветку
Natalya Balynina

Нет, не так. Расшарить файл в драйве гугл предлагает тремя вариантами, один из которых называется "публичный доступ", второй - "доступ только по ссылке" и третий "личный доступ". И что тут намекает на то, что при втором варианте содержимое файла будет индексироваться как и при первом, хотя обещано, что доступ только у тех, кто получил ссылку, причем только в письме?

Ответить
Развернуть ветку
Alexander Matveev

Ради вас зашел и проверил

Ответить
Развернуть ветку
Natalya Balynina

И? Почему часть письма (ссылка в этом случае, или текст, или картинка в других случаях) индексируется поисковиками?

Ответить
Развернуть ветку
Alexander Matveev

Потому что могут :))

Ответить
Развернуть ветку
Ilya P

Яндекс проиндексировал документы, которые открывались в яндекс.браузере. Правда или ложь?

Ответить
Развернуть ветку
Иван Максимов

Похоже, что индексирует.
Но какое это имеет значение?
Гугл сам читал пользовательскую почту и мог догадаться, что ситуация индексации при пересылке возможна.

Сейчас мы имеем окно с описанием доступности документа.

Доступно для ПОИСКА и просмотра всем пользователям интернета.

Доступно для просмотра тем у кого есть прямая ссылка.

Доступно только вам.

В двух последних случаях, про поиск нет ни слова.

Но да. Технически страница отдается. Отдается с текстовым массивом. И может быть проидексирована.

Поэтому технически это не баг, а фича.

Для того, чтоб избежать такой некрасивой ситуации, Гуглу всего то надо было по ссылке отдавать какой-нибудь дисклеймер типа "на этой странице размещен контент, в котором может быть что угодно. Показать".

И по клику уже подгружать контент.

Но признать, что они обосрались - хрен. До последнего будут отпираться. А потом "мы ввели новую фичу для сохранности ваших документов".

Ответить
Развернуть ветку
Sergey Mokeev

Конечно, индексирует :). Яндекс делает то, что начал когда-то делать Google.

Ответить
Развернуть ветку
Алексей Тарасов

Не спасёт. Поисковые роботы умеют нажимать кнопки.

Накосячить гугл мог только в одном - если он не закрыл ссылки от индексирования. Но это никак не раскрывает того, как яндексовые роботы получили эти ссылки, которых нигде не было в доступном им интернете. Если и обосрались, то сразу обе компании.

Ответить
Развернуть ветку
Иван Максимов

Робот умеет ходить по ссылкам.
Наверное он даже умеет нажимать кнопки, которые размечены как кнопки, например, у них стоит role="button".
А индексировать ajax роботы не умеют. Эта проблема до сих пор решается костылями разной степени изящности. Так в чем проблема, просто не решать эту проблему (прошу прощения за скудность речи).

А вот то, что сервисы ходят по ссылкам гугл знал.
Мессенджеры ходят при отправке.
Паук из почты может ходить при получении.
Браузер может ходить при открытии.
Так что к Гуглу вопрос по безопасности и по формулировкам уровней доступности вводящим в заблуждение.

К Яндексу моральный вопрос.
С одной стороны, индексация через браузер, наверное ускоряет индексацию. С другой - вот такая вот фигня.
Хз, насколько можно считать косяком излишнее рвение по ускорению и расширению индексации.

Ответить
Развернуть ветку
Stan Podolski

Иногда роботы не умеют нажимать кнопки.

Пример - человеку показывается "Ты ж погодь...", роботу "Жми"

Робот - жмет

Ответить
Развернуть ветку
Иван Максимов

Это как? Технически, что это за разделение, как оно осуществляется, на основании чего и с какой целью.

Вообще я не задумывался никогда. Жмут ли пауки на кнопки, не являющиеся ссылками. Пока тоже не вижу, какой в этом смысл. Не могу представить сценарий. Надо будет сегодня изучить этот вопрос.

Ответить
Развернуть ветку
Stan Podolski

на самом деле очень просто.

Это всего лишь современный фреймворк с подпиской на какую то базу. Подписка занимает полсекунды. Человек полсекунды просто не успевает оценить, а робот успевает увидеть кнопку

Не то чтобы в этом был смысл, это просто как оно работает

Ответить
Развернуть ветку
Иван Максимов

Я просто плохо представляю, как работают, например, спамботы. Но очень сомневаюсь, что они жмут на все кнопки подряд.
Например, после нажатия сабмита "подписаться" может вылезти окно с уведомлением о использовании ПД и двумя кнопками: эгри-дизэгри.

Так-то да. Можно какой-либо элемент делать просто невидимым. Но нет гарантии, что и бот на него ткнет.

И мы же всё-таки говорим о поисковиках. Принципиальная разница в том, что в случае со спамботом бот пишется подстроенным под конкретную задачу или под наиболее распространенные сценарии. А в случае с поисковиком, всё-таки сценарии подгоняются под заявленный функционал готовых алгоритмов индексирования.

Ответить
Развернуть ветку
Stan Podolski

Тут фишка в том, что это по разному воспринимается ботом и человеком.

А так все можно имитировать. Но нужно потратить некоторые усилия. И пока 80% сайтов это WP, то никто ничего делать не станет

Ответить
Развернуть ветку
Ilya P

Я понимаю, что это фича, но есть нюанс, была ли ссылка на документ в публичном доступе.

Ответить
Развернуть ветку
Zoibana

Почитайте это и сделайте выводы:
https://habr.com/post/262695/
https://habr.com/post/142883/

А вот цитата официального представителя Яндекс-браузера:

Яндекс.Браузер собирает обезличенную статистическую информацию для улучшения качества Браузера, в которую включаются в том числе и адреса посещённых страниц. Это происходит только в том случае, если человек разрешил делать это в настройках программы (проставил галочку «Отправлять в Яндекс статистику использования»).
Ответить
Развернуть ветку
Alexander Matveev
проставил галочку «Отправлять в Яндекс статистику использования»

Галочка по-умолчанию включена или выключена?

Ответить
Развернуть ветку
NotFop

Здравствуйте, я параноик, я отключаю эти галочки..

Ответить
Развернуть ветку
Семен Смирнов

Да, и все они по совпадению были с доступом по ссылке

Ответить
Развернуть ветку
Ilgar Dadashov

Мы этого не узнаем

Ответить
Развернуть ветку
Александр Иванов

Продвижение Гугл-документов. В очередь, пожалуйста.
https://docs.google.com/document/d/1fCJ7EQAeQn0eybqYSwGejjdA0tIIJzv1D7nZpMtPsN0/edit?usp=sharing

Ответить
Развернуть ветку
Александр Иванов

Накрылся документ в мобилке

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Александр Иванов

Там до сих пор такой пиздец)) пацаны с десигна подтянулись

Ответить
Развернуть ветку
Dmitry Gurkov

У гугла давно документы в поиске есть

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Александр Мазалецкий

Это как говорится, есть такая фича, но мы забыли о ней сказать. Крутая фича.

Ответить
Развернуть ветку
eduardtibet .

Истина стара, как мир: "Вы можете считать вашими данными только те, которые физически хранятся у вас, и к которым вы физически имеете доступ" (отсюда: https://vc.ru/27896-pusto-kak-navesti-poryadok-v-faylah-chtoby-ne-prevrashchat-desktop-v-chulan#comment-541765)

Ответить
Развернуть ветку
Dmitry Myachin

Каждый, кто ставит доступ по ссылке должен знать, что это ничем не отличается от публичного доступа. Ссылка через уже несколько секунд может быть у кого угодно вообще. Не имеет значения, на сколько параноики лично вы и настройки ваших браузеров (верить, что настройки работают, что багов в применении настроек на бывает, лол), если эти ссылки отдаются собеседнику. Дополнительно отмечу, что отдаются они обычно через заведомо скомпроментированные каналы связи — бесплатную почту, мессенджер.
Если нужно шарить данные, то только с доступом по приглашению. Да и то такой подход всего лишь уберёт опасность, что Васян сможет увидеть документ. А вот вредоносное расширение вашего браузера документ всё равно увидит целиком. Но обычно это приемлемый риск.
Если документ действительно важен, то только глупцы передают его не в контейнере, пароль от которого передаётся по совершенно другому каналу связи.

Это же базовые знания для Интернета.

Ответить
Развернуть ветку
41 комментарий
Раскрывать всегда