Google: В попадании файлов из Docs в «Яндекс» и другие поисковики не было сбоя Статьи редакции
Google высказала свою позицию по поводу документов из сервиса Google Docs, которые попали в выдачу «Яндекса» и других поисковиков. В компании сообщили, что сервис работает корректно.
Вечером 4 июля пользователи «Яндекса» обнаружили, что поисковик и другие сервисы индексируют документы из Google Docs — в том числе те, у которых был включён «доступ по ссылке». В ночь на 5 июля сотрудники «Яндекса» изъяли эти ссылки из выдачи и сообщили в Google о ситуации.
0
показов
9.1K
открытий
Комментарий недоступен
Вконтакте что-то никого и не тревожит с их документами.
Вероятно, что там их никто не хранит!?
А что, для кого-то это не было очевидно?
Доступ к документу открыт для всех, вполне логично что его могут увидеть поисковики.
Проблема была в том, что документы, которые были доступны только по ссылке, и эта ссылка нигде в открытом доступе не размешалась, а только пересылалась через мессенджеры и открывалась в браузере получателя, оказалась в индексе поисковых систем,
Это не противоречит никаким логическим аспектам или заявленному поведению поисковых сетей. Соответственно, это не баг. Если бы на сайте google docs были созданы нужные манифесты robots.txt, но ПС их проигнорировала, можно было бы лить претензии.
Более того, все ресурсы, с какими бы то ни было уникальными адресами, посещаются в автоматическом режиме вашим провайдером после вас, пауками работающими в связке с браузером и еще бог знает кем.
Даже при расшаривании ссылки в мессенджере, мессенджер делает превьюшку для ссылки, а значит что по ней ходит какой-то паук.
Это все пример классического Security through obscurity (Безопасность через неясность), и он уже давно не термин для гиков https://ru.wikipedia.org/wiki/%D0%91%D0%B5%D0%B7%D0%BE%D0%BF%D0%B0%D1%81%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D1%87%D0%B5%D1%80%D0%B5%D0%B7_%D0%BD%D0%B5%D1%8F%D1%81%D0%BD%D0%BE%D1%81%D1%82%D1%8C
Юзерам давно пора привыкнуть -- размещаешь фоточки в социалке в открытом альбоме, не удивляйся что они попали куда-то. Хотя я и понимаю, что рядовой юзер об этом не думает.
Никакого отношения к Security through obscurity это не имеет.
Security through obscurity это если бы была веб страница, а внизу незаметная глазу буква "П", на которую нужно было щёлкнуть, чтобы перейти в секретный раздел. Возможно "щёлкалась" бы она каким-то жёстко обфусцированным javascript.Прямо как в фильме "Сеть". И если бы ставка была бы не на то что её не найдут поисковики, а на то что просто никто не догадается её щёлкнуть или что-то искать в поисковиках.
Здесь же полноценный секретный идентификатор, ничем не отличающийся от shared secret или стойкого пароля.
Проблема только в том что в современном веб сложилась традиция не считать URL чем-то секретным, и соответственно, секретные токены в URL передавать нельзя.
Нет, и то и другое входит в STO. Неясность логики генерации уникального URL => Security through obscurity
Саня ты олень, потому-что твоя логика никуда не годится.
Если ссылка на док не засвечена в том месте, где ходят поисковые роботы, на форуме или здесь в камментах например... То каким йухЪом она индексируется поисковиком?
Это вообще ни разу не фича.
(Может где-то на 9833 странице "лицензионного соглашения" и написано мелким шрифтом, что расшаренный док автоматом попадёт в индекс других поисковиков, даже если вы никому эту ссылку ни разу не кидали. По факту это тупо кидалово юзера, неприятный нежданчик)
В общем твоя идиотская логика отвратительно смотрится на фоне типа интеллектуальных камментов.
Поэтому от агрументированной дискуссии сразу перейдём к оскорблениям -- ты олень.
На твои оскорбления я ответить могу, но не буду. Замечательно, что ты ради этого даже сделал фейковый аккаунт в фейсбуке.
По сабжу: а поисковики где-то обещают, что в поиске будут только те страницы, которые "были засвечены где-то коментах"? Все, что не закрыто под приватный доступ, может попасть куда угодно, включая поисковики. Есть один инструмент, где можно указать, что ты не хотел бы чтобы попало в поиск, это robots.txt. Это официально предоставленное средство поисковиками.
Нужно голову включать, а не вот это вот нытьё, которое тут некоторые льют в коментах.
То есть для вас ок, что поисковые машины индексируют личную переписку?
Если эта переписка хранится на сайте в открытом виде, то да. Все претензии к тому месту, где вы переписываетесь, а не к поисковикам.
Переписку, которая идет через gmail и пр почтовые сервисы. А не "хранится на сайте в открытом виде". К поисковикам никаких претензий, само собой. Но со стороны Google Drive не закрывать индексацию контента по ссылке, которая отправляется в письме и больше нигде, этовсе равно что если бы Google стал давать в выдаче содержимое наших писем.
Если бы в Gmail была кнопка "Открыть доступ по ссылке" с подписью "Просматривать могут все, у кого есть ссылка", было бы то же самое. А так не то же самое.
Нет, не так. Расшарить файл в драйве гугл предлагает тремя вариантами, один из которых называется "публичный доступ", второй - "доступ только по ссылке" и третий "личный доступ". И что тут намекает на то, что при втором варианте содержимое файла будет индексироваться как и при первом, хотя обещано, что доступ только у тех, кто получил ссылку, причем только в письме?
Ради вас зашел и проверил
И? Почему часть письма (ссылка в этом случае, или текст, или картинка в других случаях) индексируется поисковиками?
Потому что могут :))
Яндекс проиндексировал документы, которые открывались в яндекс.браузере. Правда или ложь?
Похоже, что индексирует.
Но какое это имеет значение?
Гугл сам читал пользовательскую почту и мог догадаться, что ситуация индексации при пересылке возможна.
Сейчас мы имеем окно с описанием доступности документа.
Доступно для ПОИСКА и просмотра всем пользователям интернета.
Доступно для просмотра тем у кого есть прямая ссылка.
Доступно только вам.
В двух последних случаях, про поиск нет ни слова.
Но да. Технически страница отдается. Отдается с текстовым массивом. И может быть проидексирована.
Поэтому технически это не баг, а фича.
Для того, чтоб избежать такой некрасивой ситуации, Гуглу всего то надо было по ссылке отдавать какой-нибудь дисклеймер типа "на этой странице размещен контент, в котором может быть что угодно. Показать".
И по клику уже подгружать контент.
Но признать, что они обосрались - хрен. До последнего будут отпираться. А потом "мы ввели новую фичу для сохранности ваших документов".
Конечно, индексирует :). Яндекс делает то, что начал когда-то делать Google.
Не спасёт. Поисковые роботы умеют нажимать кнопки.
Накосячить гугл мог только в одном - если он не закрыл ссылки от индексирования. Но это никак не раскрывает того, как яндексовые роботы получили эти ссылки, которых нигде не было в доступном им интернете. Если и обосрались, то сразу обе компании.
Робот умеет ходить по ссылкам.
Наверное он даже умеет нажимать кнопки, которые размечены как кнопки, например, у них стоит role="button".
А индексировать ajax роботы не умеют. Эта проблема до сих пор решается костылями разной степени изящности. Так в чем проблема, просто не решать эту проблему (прошу прощения за скудность речи).
А вот то, что сервисы ходят по ссылкам гугл знал.
Мессенджеры ходят при отправке.
Паук из почты может ходить при получении.
Браузер может ходить при открытии.
Так что к Гуглу вопрос по безопасности и по формулировкам уровней доступности вводящим в заблуждение.
К Яндексу моральный вопрос.
С одной стороны, индексация через браузер, наверное ускоряет индексацию. С другой - вот такая вот фигня.
Хз, насколько можно считать косяком излишнее рвение по ускорению и расширению индексации.
Иногда роботы не умеют нажимать кнопки.
Пример - человеку показывается "Ты ж погодь...", роботу "Жми"
Робот - жмет
Это как? Технически, что это за разделение, как оно осуществляется, на основании чего и с какой целью.
Вообще я не задумывался никогда. Жмут ли пауки на кнопки, не являющиеся ссылками. Пока тоже не вижу, какой в этом смысл. Не могу представить сценарий. Надо будет сегодня изучить этот вопрос.
на самом деле очень просто.
Это всего лишь современный фреймворк с подпиской на какую то базу. Подписка занимает полсекунды. Человек полсекунды просто не успевает оценить, а робот успевает увидеть кнопку
Не то чтобы в этом был смысл, это просто как оно работает
Я просто плохо представляю, как работают, например, спамботы. Но очень сомневаюсь, что они жмут на все кнопки подряд.
Например, после нажатия сабмита "подписаться" может вылезти окно с уведомлением о использовании ПД и двумя кнопками: эгри-дизэгри.
Так-то да. Можно какой-либо элемент делать просто невидимым. Но нет гарантии, что и бот на него ткнет.
И мы же всё-таки говорим о поисковиках. Принципиальная разница в том, что в случае со спамботом бот пишется подстроенным под конкретную задачу или под наиболее распространенные сценарии. А в случае с поисковиком, всё-таки сценарии подгоняются под заявленный функционал готовых алгоритмов индексирования.
Тут фишка в том, что это по разному воспринимается ботом и человеком.
А так все можно имитировать. Но нужно потратить некоторые усилия. И пока 80% сайтов это WP, то никто ничего делать не станет
Я понимаю, что это фича, но есть нюанс, была ли ссылка на документ в публичном доступе.
Почитайте это и сделайте выводы:
https://habr.com/post/262695/
https://habr.com/post/142883/
А вот цитата официального представителя Яндекс-браузера:
Яндекс.Браузер собирает обезличенную статистическую информацию для улучшения качества Браузера, в которую включаются в том числе и адреса посещённых страниц. Это происходит только в том случае, если человек разрешил делать это в настройках программы (проставил галочку «Отправлять в Яндекс статистику использования»).Галочка по-умолчанию включена или выключена?
Здравствуйте, я параноик, я отключаю эти галочки..
Да, и все они по совпадению были с доступом по ссылке
Мы этого не узнаем
Продвижение Гугл-документов. В очередь, пожалуйста.
https://docs.google.com/document/d/1fCJ7EQAeQn0eybqYSwGejjdA0tIIJzv1D7nZpMtPsN0/edit?usp=sharing
Накрылся документ в мобилке
Комментарий недоступен
Там до сих пор такой пиздец)) пацаны с десигна подтянулись
У гугла давно документы в поиске есть
Комментарий недоступен
Это как говорится, есть такая фича, но мы забыли о ней сказать. Крутая фича.
Истина стара, как мир: "Вы можете считать вашими данными только те, которые физически хранятся у вас, и к которым вы физически имеете доступ" (отсюда: https://vc.ru/27896-pusto-kak-navesti-poryadok-v-faylah-chtoby-ne-prevrashchat-desktop-v-chulan#comment-541765)
Каждый, кто ставит доступ по ссылке должен знать, что это ничем не отличается от публичного доступа. Ссылка через уже несколько секунд может быть у кого угодно вообще. Не имеет значения, на сколько параноики лично вы и настройки ваших браузеров (верить, что настройки работают, что багов в применении настроек на бывает, лол), если эти ссылки отдаются собеседнику. Дополнительно отмечу, что отдаются они обычно через заведомо скомпроментированные каналы связи — бесплатную почту, мессенджер.
Если нужно шарить данные, то только с доступом по приглашению. Да и то такой подход всего лишь уберёт опасность, что Васян сможет увидеть документ. А вот вредоносное расширение вашего браузера документ всё равно увидит целиком. Но обычно это приемлемый риск.
Если документ действительно важен, то только глупцы передают его не в контейнере, пароль от которого передаётся по совершенно другому каналу связи.
Это же базовые знания для Интернета.