В поисковую выдачу «Яндекса» попали документы Google Docs
Поисковая система «Яндекс» проиндексировала документы Google Docs, находящиеся в публичном доступе.
Обновлено 5 июля: Часть неприватных документов в Google Docs была проиндексирована и другими поисковыми системами. Сотрудники «Яндекса» изъяли эти ссылки из выдачи и обратились в Google с предложением обратить внимание на ситуацию.
28
показов
24K
открытий
Ну и что?
Раз они в публичном доступе, вероятно, ниче страшного. Они уже давно были проиндексированны Гуглом.
Ну, а то, что некоторые хранят пароли в публичном доступе - тоже, не новость, в общем-то.
Документ доступный по оверхешной ссылке сложно назвать публичным.. Сами так регулярно шарим для своих.
Таки согласен.
Косяк Гугла.
Но я ж делаю вывод по тексту статьи. А там про ограниченный доступ, вроде, ни слова.
Только про публичный.
Да нет там косяка гугла. Файлы с доступом по ссылке проиндексированы только те, на которые есть ссылка в сети. Специально проверил свои файлы с доступом по ссылке, которые не были опубликованы. Их нет в выдаче. Зато есть те, на которые и так есть ссылки.
А яндекс зря вынес весь свой индекс. У гугла спокойно можно продолжать искать по сайту гугл доков. И судя по всему, работает это именно так, как и должно.
С одной стороны - да.
Очевидно, что Яндекс не выдумывает ссылки, по которым надо индексировать, а где-то их бирет. И если ты сам опубликовал ссылку в сети, то документ считается публичным. Все работает, как задумано.
С другой - задумано не совсем правильно.
Ты можешь передать ссылку по почте или мессенджеру.
И вот тут уже вопрос не однозначный.
Никто не даст гарантии, что любой почтовый сервис, используемый получателем, или мессенджер завтра не начнет индексировать ссылки из писем.
Ну, гугл же анализировал письма, почему бы Яндексу их не индексировать? Ну, теоретически.
Наверное, нужна дополнительная настройка индексировать - не индексировать для писем с ограниченным доступом.
Яндекс не выдумал ссылки, а проиндексировал те страницы на которые заходили через их браузер. В этом и косяк Яндекса. И уже не в первый раз такое.
Если яндекс и правда индексирует ссылки из браузера, то этоне косяк яндекса. Это хорошо для продукта и экосистемы.
Что мешало гуглу сделать индексируемыми только доки с доступом для всех?
Хочешь индексацию - общий доступ, а там уже делись ссылками, как хочешь. Ограниченный доступ - не индексируем.
В чем сдельная полезность для продукта и экосистемв? В результате подобных действий в открытый доступ попадает информация которой там быть не должно.
Вам не кажется это не логичным? Делать недоступным для роботов файл по прямой ссылке который должен быть доступным всем у кого есть прямая ссылка на этот файл.
Полезность в том, что пользователь яндекса может найти больше инфы по запросу. Это какбэ прямое улучшение качества поиска. Разве нет?
По второму вопросу.
Посмотрел, как это устроено в гугле.
При общем доступе он пишет, что доступно всем и для поиска.
При доступе по ссылке - про поиск ничего не говорится.
А дальше чисто техника.
Тот же robots.txt, как было замечено, не может запретить поисковикам индексировать. Он может только рекомендовать не индексировать.
Прямая ссылка сформирована. Документ по ней доступен без входа в аккаунт. Значит сервер по этой ссылке отдаёт 200ок.
Значит документ может быть проиндексирован.
Чтоб этого не происходило, нужно или закрывать ссылку паролем, или генерировать контент скриптом.
Помним старую проблему, что динамичный контент не индексируется? Сайты ещё борются с этим, кто как умеет.
В гуглдоксе так и происходит. Контент генерируется скриптом.
Но при этом, зачем в код документа передаётся контент для индексации для меня - загадка.
И нет, я не вижу противоречия в том, что контент для просмотра ЧЕЛОВЕКОМ по предоставленной ему ссылке не доступен для индексации.