А вы уже заблокировали свой сайт для GPTBot и К?

GPTBot — это веб-сканер OpenAI, который можно идентифицировать по следующему пользовательскому агенту и строке.

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Источник

9,2% из 1000 лучших веб-сайтов заблокировали GPTBot за первые 14 дней

Топ-6 крупнейших веб-сайтов, которые в настоящее время блокируют GPTBot:

- Amazon.com - 19 августа 2023 г.

- Quora.com - от 22 августа 2023 г.

- NYTimes.com - 17 августа 2023 г.

- Shutterstock.com - 21 августа 2023 г.

- Wikihow.com – 12 августа 2023 г.

– CNN.com – 22 августа 2023 г.

Как заблокировать OpenAI GPTBot на вашем сайте

*Если вы уверены, что вам это действительно нужно

Установите следующий код в файл Robots.txt:

User-agent: GPTBot

Disallow: /

UPD 1:

Вице-президент Google Дэниель Ромейн объявила (https://blog.google/technology/ai/an-update-on-web-publisher-controls/) о появлении нового краулера Google-Extended, который сканирует контент для использования в системах искусственного интеллекта.

Так что, если не хотите, чтоб на вашем контенте обучались Bard и Vertex, запрещайте в файле robots.txt сканирование сайта для User-Agent: Google-Extended

UPD 2:

...запрещение для Google-Extended через файл robots.txt вовсе не мешает SGE отображать ваш контент... Вместо этого вам необходимо заблокировать SGE, полностью заблокировав Googlebot"

UPD 3 (декабрь 2023 г.):

Из публикации о бот-активности (онлайн-магазины; период ноябрьских распродаж-2023):

...абсолютным рекордсменом по интенсивности обращений стал GPTBot – бот-краулер компании OpenAI, запущенный в августе 2023 года. Он собирает свежие данные, которые подаются на вход языковой модели (LLM) ChatGPT, чтобы та могла генерировать релевантный текст и изображения по запросам своих пользователей. При этом перебор локаций веб-ресурса и API происходит с максимально возможной скоростью.

...запросы GPTBot, если они не блокируются защитными решениями, могут вызвать серьезную паразитную нагрузку и повышенное потребление серверных мощностей. У ряда крупных интернет-магазинов доля обращений GPTBot в массе всех бот-запросов доходит до 90%.

77
47 комментариев

После того, как узнал, что он демонстрирует стремление к власти и попробовать тоже не захотелось. Тоже мне диктатор!

3
Ответить

Боюсь, эта мера ничего не даст. Но время покажет.

3
Ответить

А я вот не буду блокировать. Пусть учится на моих хороших сайтах :)

3
Ответить

А сайты про что?

Ответить

Интересен вопрос авторских прав. Т.к. для обучения Ai использует чужой контент и вполне себе бесплатно.

2
Ответить

AI создает нейронку - она дефакто и деюре является "произведением на основе". Т.е. права - чище некуда

2
Ответить

Боюсь, что пока об этом можно забыть.

Ответить