В поисковую выдачу «Яндекса» попали документы Google Docs

Поисковая система «Яндекс» проиндексировала документы Google Docs, находящиеся в публичном доступе.

Обновлено 5 июля: Часть неприватных документов в Google Docs была проиндексирована и другими поисковыми системами. Сотрудники «Яндекса» изъяли эти ссылки из выдачи и обратились в Google с предложением обратить внимание на ситуацию.

0
102 комментария
Написать комментарий...
Иван Максимов

Ну и что?
Раз они в публичном доступе, вероятно, ниче страшного. Они уже давно были проиндексированны Гуглом.
Ну, а то, что некоторые хранят пароли в публичном доступе - тоже, не новость, в общем-то.

Ответить
Развернуть ветку
О, я не из Англии...

Документ доступный по оверхешной ссылке сложно назвать публичным.. Сами так регулярно шарим для своих.

Ответить
Развернуть ветку
Иван Максимов

Таки согласен.
Косяк Гугла.
Но я ж делаю вывод по тексту статьи. А там про ограниченный доступ, вроде, ни слова.
Только про публичный.

Ответить
Развернуть ветку
Виталий Горячев

Да нет там косяка гугла. Файлы с доступом по ссылке проиндексированы только те, на которые есть ссылка в сети. Специально проверил свои файлы с доступом по ссылке, которые не были опубликованы. Их нет в выдаче. Зато есть те, на которые и так есть ссылки.

А яндекс зря вынес весь свой индекс. У гугла спокойно можно продолжать искать по сайту гугл доков. И судя по всему, работает это именно так, как и должно.

Ответить
Развернуть ветку
Иван Максимов

С одной стороны - да.
Очевидно, что Яндекс не выдумывает ссылки, по которым надо индексировать, а где-то их бирет. И если ты сам опубликовал ссылку в сети, то документ считается публичным. Все работает, как задумано.

С другой - задумано не совсем правильно.
Ты можешь передать ссылку по почте или мессенджеру.
И вот тут уже вопрос не однозначный.
Никто не даст гарантии, что любой почтовый сервис, используемый получателем, или мессенджер завтра не начнет индексировать ссылки из писем.

Ну, гугл же анализировал письма, почему бы Яндексу их не индексировать? Ну, теоретически.

Наверное, нужна дополнительная настройка индексировать - не индексировать для писем с ограниченным доступом.

Ответить
Развернуть ветку
Сергей Билан

Яндекс не выдумал ссылки, а проиндексировал те страницы на которые заходили через их браузер. В этом и косяк Яндекса. И уже не в первый раз такое.

Ответить
Развернуть ветку
Иван Максимов

Если яндекс и правда индексирует ссылки из браузера, то этоне косяк яндекса. Это хорошо для продукта и экосистемы.

Что мешало гуглу сделать индексируемыми только доки с доступом для всех?
Хочешь индексацию - общий доступ, а там уже делись ссылками, как хочешь. Ограниченный доступ - не индексируем.

Ответить
Развернуть ветку
Сергей Билан

В чем сдельная полезность для продукта и экосистемв? В результате подобных действий в открытый доступ попадает информация которой там быть не должно.

Вам не кажется это не логичным? Делать недоступным для роботов файл по прямой ссылке который должен быть доступным всем у кого есть прямая ссылка на этот файл.

Ответить
Развернуть ветку
Иван Максимов

Полезность в том, что пользователь яндекса может найти больше инфы по запросу. Это какбэ прямое улучшение качества поиска. Разве нет?

По второму вопросу.
Посмотрел, как это устроено в гугле.
При общем доступе он пишет, что доступно всем и для поиска.
При доступе по ссылке - про поиск ничего не говорится.

А дальше чисто техника.
Тот же robots.txt, как было замечено, не может запретить поисковикам индексировать. Он может только рекомендовать не индексировать.
Прямая ссылка сформирована. Документ по ней доступен без входа в аккаунт. Значит сервер по этой ссылке отдаёт 200ок.
Значит документ может быть проиндексирован.

Чтоб этого не происходило, нужно или закрывать ссылку паролем, или генерировать контент скриптом.
Помним старую проблему, что динамичный контент не индексируется? Сайты ещё борются с этим, кто как умеет.
В гуглдоксе так и происходит. Контент генерируется скриптом.
Но при этом, зачем в код документа передаётся контент для индексации для меня - загадка.

И нет, я не вижу противоречия в том, что контент для просмотра ЧЕЛОВЕКОМ по предоставленной ему ссылке не доступен для индексации.

Ответить
Развернуть ветку
99 комментариев
Раскрывать всегда