Яндекс индексирует всю открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, Яндекс не индексирует, даже если они находятся в открытой части интернета.
В среду вечером в службу поддержки обратились пользователи с жалобами на проблему доступности файлов на docs.google.com. Наша служба безопасности связывается сейчас с коллегами из Google, чтобы обратить их внимание на то, что в этих файлах может оказаться приватная информация.
Проиндексированы документы, на которых нет ссылок! Каким образом они попали в базу Яндекса? Не через Яндекс браузер случайно? robots.txt тут вообще не причём. Какие ещё документы и данные, на которых нет ссылок, могут оказаться в базе Яндекса ?
robots.txt - это запрет сканирования, а не индексации. Запрет индексации это noindex/X-Robots-Tag. Наоборот нельзя запрещать сканирование в robots.txt.
Яндекс индексирует всю открытую часть интернета — те страницы, которые доступны при переходе по ссылкам без ввода логина и пароля. Страницы, индексация которых запрещена администратором сайта в файле robots.txt, Яндекс не индексирует, даже если они находятся в открытой части интернета.
В среду вечером в службу поддержки обратились пользователи с жалобами на проблему доступности файлов на docs.google.com. Наша служба безопасности связывается сейчас с коллегами из Google, чтобы обратить их внимание на то, что в этих файлах может оказаться приватная информация.
Проиндексированы документы, на которых нет ссылок! Каким образом они попали в базу Яндекса? Не через Яндекс браузер случайно? robots.txt тут вообще не причём. Какие ещё документы и данные, на которых нет ссылок, могут оказаться в базе Яндекса ?
А такой вопрос — Яндекс браузер каким то образом собирает данные для большого поисковика Яндекса?
robots.txt - это запрет сканирования, а не индексации. Запрет индексации это noindex/X-Robots-Tag. Наоборот нельзя запрещать сканирование в robots.txt.
Надо признать у других поисковиков давно так
А еще вы добавляете в индекс непубличные адреса, которые пользователь открывает в вашем браузере.
Нормаль так гуглу поднасрали, жаль, что обычных людей задели