Perplexity обвиняют в скрытом скрейпинге сайтов, которые запрещали ИИ-доступ.

Perplexity обвиняют в скрытом скрейпинге сайтов, которые запрещали ИИ-доступ.

Стартап Perplexity AI, который предлагает поисковик с генеративным ИИ, оказался в центре нового скандала. Компанию обвиняют в том, что она собирает данные с сайтов, которые прямо запрещают доступ автоматизированным системам вроде ИИ-ботов. При этом сбор происходит в обход стандартных интернет-ограничений.

Как выяснилось, Perplexity продолжает получать контент даже с тех ресурсов, которые через файл robots.txt прямо указывают: «нам нельзя». Этот файл — технический способ сообщить поисковым системам и ИИ-краулерам, что сканирование запрещено. Его уважают Google, Bing и большинство крупных сервисов. Но не Perplexity.

Об этом рассказала компания Cloudflare, которая предоставляет инфраструктуру миллионам сайтов. По её данным, Perplexity использует скрытые методы сбора данных: маскирует своих ботов под обычных пользователей, меняет IP-адреса, не указывает, что это робот, и обходит защиту. Всё это называется stealth crawling — когда ИИ-программа делает вид, что она просто браузер, а не автоматическая система.

Эта информация подтверждает расследование Wired и независимого разработчика Робба Найта. Он проводил эксперимент: запретил доступ к своему сайту в robots.txt и стал отслеживать трафик. Несмотря на запрет, запросы всё равно поступали — с IP-адресов Amazon Web Services, которые, по данным исследователей, связаны с Perplexity. То есть сайт был просканирован, хотя явно этого не разрешал.

Perplexity не отрицает, что использует сторонние краулеры. В компании заявляют, что это обычная практика, а всё, что они делают, соответствует принципу fair use — то есть допустимого использования контента без разрешения, если речь не идёт о полном копировании или коммерческом ущербе. Тем не менее, после новых данных Cloudflare исключила Perplexity из списка доверенных ботов и добавила инструменты для автоматической блокировки их трафика.

Это не первый случай, когда Perplexity обвиняют в нарушении границ. Ранее недовольство выражали издания вроде Forbes, Dow Jones и BBC — они указывали, что Perplexity использует их контент, но не подписывает источники или просто перефразирует чужие статьи. В США за нарушение авторских прав возможны штрафы до 150 000 долларов за каждый случай.

Главная проблема в том, что технические ограничения вроде robots.txt не имеют юридической силы. Они работают на доверии: ты указываешь, что тебе нельзя — и нормальные боты этого не делают. Но сейчас, когда ИИ-сервисы начали собирать всё подряд, таких ограничений может быть уже недостаточно. Компании вроде Perplexity ставят под сомнение этот негласный договор.

На фоне усиления критики платформа пытается удержаться в рамках допустимого. Внутри индустрии обсуждают: если ИИ-продукты действительно хотят пользоваться данными, им придётся заключать лицензионные соглашения с издателями или получать официальные разрешения на доступ. Это станет новой нормой — как только один пример окажется в центре судебного разбирательства.

Perplexity активно растёт, её поддерживают инвесторы вроде Джеффа Безоса и Nvidia. Но давление усиливается, и то, как компания справится с этим вызовом, может повлиять на всю сферу ИИ-поиска — особенно в вопросе этичного доступа к информации в интернете.

ИИ, Telegram, автоматизация и цифровая инфраструктура — от новых фич до конфликтов интересов. Обновления, разборы, системы, из которых складываются деньги.

Полезные материалы для прочтения:

1
Начать дискуссию