OpenAI обходит robots.txt: когда нельзя, но очень хочется — уже можно

OpenAI обходит robots.txt: когда нельзя, но очень хочется — уже можно

OpenAI переписал правила для своих ботов: агент ChatGPT‑User больше не считается классическим краулером и фактически выведен из‑под действия robots.txt, тогда как GPTBot и OAI‑SearchBot по‑прежнему обязуются ему следовать. В результате владельцы сайтов обнаружили, что привычный запрет для ботов больше не защищает контент от попадания в ответы ИИ по запросу пользователя, и обсуждение резко сместилось от «этики краулинга» к очень приземлённым вопросам инфраструктуры, права и денег.

В чем суть происходящего

OpenAI тихо, но показательно переписал документацию по своим ботам. Раньше там было красиво и успокаивающе: все наши краулеры уважают robots.txt, веб-мастера могут спокойно спать. Теперь формулировка другая: правила robots.txt распространяются только на два агента — GPTBot (обучение моделей) и OAI-SearchBot (поисковые штуки).

А вот ChatGPT-User из этого списка торжественно вытащили. Формально он больше не считается «ботом-краулером», а подается как прокси действий живого пользователя: человек нажал кнопку в ChatGPT, агент пошел в интернет, что‑то там почитал и вернулся с ответом.

Логика OpenAI простая и очень юристам понятная: robots.txt писался под автоматических сканеров, которые сами ходят по сети и индексируют все подряд. А если действие инициирует человек, то это больше похоже на обычный браузер, а не на классический бот. Значит, и ограничения можно трактовать мягче.

Почему издатели начали кипеть

Параллельно выросло недовольство медиа и контент‑площадок тем, как ИИ забирают тексты, а затем возвращают пользователю уже «переваренный» ответ — без кликов, показов, рекламы и прочих приятных мелочей.

Многие издатели ответили прямолинейно: в robots.txt — запрет для AI-ботов. В ход пошли списки: OpenAI, Google, Perplexity, любые новые “*bot” в логах — в бан. Инфраструктурщики тоже не спят: тот же Cloudflare уже предлагает режим «по умолчанию блокируем все ИИ-краулеры для новых доменов», плюс надстройки уровня «Robotcop», которые отстреливают подозрительных гостей на сетевом уровне, а не через вежливую просьбу в текстовом файле.

Но вот нюанс: все эти заборы отлично работают против классических краулеров, идущих обучать модели или строить индекс. А ChatGPT-User OpenAI уже вывел в серую зону: формально это как будто человек открыл ваш сайт из необычного браузера. Не нравится? Настраивайте фильтры трафика, сигнатуры, firewall — игра переезжает с уровня «вежливый robots.txt» на уровень полноценной сетевой и инфраструктурной защиты.

Кто есть кто в зоопарке OpenAI

Чтобы не путаться, картина такая:

  • GPTBot — это тот, кто ходит по сайтам собирать данные для обучения моделей. Его можно и нужно блокировать в robots.txt, если не хотите, чтобы ваш контент становился кормом для нейросетей.
  • OAI-SearchBot — отвечает за поиск и связанные сценарии. Тоже подчиняется robots.txt, плюс документация подчеркивает, что он отделен от обучения.
  • ChatGPT-User — агент, который выполняет конкретные запросы пользователей, включая Custom GPT и всевозможные Actions. По сути, это «браузер от ChatGPT», и вот он как раз выводится из‑под robots.txt.

И вдобавок OpenAI честно пишет: если сайт разрешил и GPTBot, и OAI‑SearchBot, результаты их обхода и индексации могут использоваться обоими ботами — чтобы не ходить по одним и тем же страницам два раза. Для админов это означает: даже если у вас в логах не видно тонны обращений, ваши страницы уже могут быть где‑то там в кешах OpenAI.

Что это значит для владельцев сайтов

Любой владелец сайта до недавнего времени жил с уютной иллюзией: «Поставлю правильный robots.txt — и боты ко мне ходить не будут (или будут только нужные)».

Сейчас становится так:

  • robots.txt по‑прежнему работает против классических краулеров (GPTBot, OAI-SearchBot, Googlebot, прочие).
  • Но для агентных сценариев «пользователь попросил ИИ сходить куда‑то по сети» правила становятся куда менее однозначными.
  • Если не хочется, чтобы контент дергали даже в таком формате — придется думать уже не о текстовом файле, а о защите на уровне инфраструктуры: фильтрация по user‑agent / IP диапазонам, защита через CDN и WAF, лимиты, капчи, paywall, приватные API вместо «голого HTML».

Проще говоря, эпоха «добровольного самоуправления через robots.txt» медленно умирает. Начинается эпоха «если реально нельзя — поставь железобетонный барьер».

А теперь нормальным языком без техно-болтовни

Есть у любого нормального сайта табличка «для ботов» — файл robots.txt. В нем хозяин пишет: «Гуглу можно, всяким мутным ИИ — нельзя, в эту папку не лезть, вот это не индексировать». Вежливые боты заглядывают в табличку, кивают и стараются вести себя прилично.

OpenAI раньше тоже числился в приличных. У него было несколько ботов, и в документации черным по белому: мы уважаем robots.txt, все честно.

А потом OpenAI делает красивый маневр: — Эти двое (GPTBot и OAI-SearchBot) по‑прежнему послушные. — А вот ChatGPT-User — это вообще не бот, это как ваш двоюродный брат за компом. Вы же сами попросили его что‑то найти, вот он и пошел.

Формально все чисто: действие инициирует пользователь. По факту — агент ChatGPT идет на сайт, читает страницу и приносит вам выжимку, а сайт крутит счетчики и думает: «А почему у меня трафик не растет, если мои тексты везде?».

Издатели, естественно, не в восторге. Они уже накидали в robots.txt «ИИ‑ботам вход воспрещен», включили всякие защитные галочки у хостинга и CDN, а OpenAI им в ответ фактически говорит: «Ну robots.txt — это же про ботов. А у нас тут как бы “пользовательский просмотр”.»

И тут вспоминается классика: «Когда нельзя, но очень хочется — то можно».

Хотели закрыть ИИ от контента — получили новую категорию: «это не бот, это пользовательский агент». Хотели контролировать доступ одной строчкой в robots.txt — теперь придется доставать тяжелую артиллерию: firewall, Cloudflare, фильтрацию, юридические бумажки и прочую оборону.

На каждую хитрую ж*** найдётся свой болт с винтом

История, как водится, обоюдоострая.

Со стороны OpenAI логика понятна:

  • Люди хотят, чтобы ИИ умел сам сходить в интернет за свежей инфой.
  • Нельзя опираться только на старые датасеты, мир меняется каждую неделю.
  • Агентный ИИ без доступа к вебу — это просто умный калькулятор с хорошей памятью.

Со стороны издателей и авторов логика не менее понятна:

  • Их контент — это деньги, инвестиции и уникальная экспертиза.
  • Если ИИ научился выдавать готовые ответы без переходов на сайт, рекламная модель рассыпается.
  • Они не против технологий, но хотят понятных правил игры и компенсаций.

И вот весь интернет дружно приехал к точке, где старая вежливая надпись «/ai-bot/ disallow» уже не работает как универсальный стоп‑знак. Теперь действуют другие принципы: кто сильнее на уровне инфраструктуры, прав и договоров — тот и диктует условия.

А мораль такая:

  • Если вам реально «нельзя» — ставьте жесткий болт с винтом, а не бумажку на двери.
  • Если вы делаете ИИ‑сервисы — не рассчитывайте, что старые договоренности про robots.txt спасут репутацию, когда пользователи и авторы поймут, как вы ходите по их контенту.
  • И если очень хочется «и ИИ, и справедливости» — придется придумывать новые механики доступа, лицензирования и монетизации.

Потому что в эпоху агентных ИИ старая мудрость вспоминается особенно остро: на каждую хитрую ж* действительно всегда найдется свой болт. Иногда еще и с винтом, и с логами запросов поверх.

3
1 комментарий