Тайный контроль Google через reCaptcha

ReСaptcha существует уже довольно давно. Если посмотреть на ее развитие, например, как появлялись новые решения: капчи v1, v2, то можно заметить интересные детали, которые, кстати, были подтверждены официальными представителями.

Мало кто помнит версию v1, но суть ее было простой: вам нужно было написать, какой текст указан на картинке. Примечательно, что сами картинки брались из книг, которые не были оцифрованы. Да, вы верно подметили, таким образом сервис reCaptcha занимался оцифровкой старых газет, книг и не только.

Нет, вы не задумывались, почему reCaptcha была бесплатной? Ведь представьте насколько невыгодно содержать капчу за свой счёт, учитывая что там огромные расходы на сервера и не только. Не кажется это странным?

С первой версией разобрались, по факту — она приносила прибыль (потенциально с оцифровки книг и газет).

Вторая версия отличалась от первой, было предложено отмечать картинки. Например, "выберите все изображения, где есть машины*. Тут такая же схема. Google занимается разработкой собственных машин (кстати, они уже начали работать в этом плане, есть работающие прототипы), но все мы понимаем: чтобы машина ездила сама (а это и есть их идея, машины без водителя), она должна быть умной: никто не хочет остаться без лишнего гидранта на улице и затопить целый район. А ремонт машины, которая врезалась в дерево на большой скорости — тоже не дешевле развлечение.

Дисклаймер: но как Tesla смогла без капч научить машины ездить автономно? Хм! Тут не все так просто. Да, Теслы могут ездить по дорогам, которые относительно свободные. В таком случае ей остаётся следить только за разметкой и препятствиями (люди, машины). Даже при этом водитель должен находиться за рулём и следить за автопилотом.

Google же озадачены разработать комплексное решение. Ведь, чтобы автопилот смог работать на безопасном уровне без человека — он должен учитывать любые ситуации.

Так мы с вами и помогли Google собрать датасет. Кстати, датасеты и их разметка — на самом деле очень дорогая штука. Представьте, сколько займет времени разметить человеку миллион картинок. И, это не все! Те, кто работал с машинным обучением меня уже должны были понять.

Когда вы обучили модель, вам нужно повысить ее процент успешных угадываний. Вы даёте ей картинки, на которых есть, либо нет машин, смотрите на результат и проверяете. И тут опять нужны новые размеченные картинки, чтобы было с чем сравнивать. Поэтому, часть картинок которые мы видели были те, которые модель Google обработала: где есть машины, а где нет. Кстати, обычно разработчики предусматривают получение результата не вроде «машина есть/машины нет», а немного иначе: «вероятность, что есть машина — 30%».

Зная примерные мерки, благодаря стадному эффекту людей, им удалось довести все до идеала. Кстати, со временем, в капчу стали добавлять «усложнения», а именно: вначале на капчах крупным планом были изображены объекты (если они были), а позже — они были изображены ближе, то есть, на картинке была только часть машины. Это тоже важный момент, чтобы научиться определять машины более «точно». Есть метрика IoU, которая это измеряет. Она показывает, насколько точно вы выделили объект, вдруг, вы захватили много пустого пространства вместе с объектом?

Благодаря этому долгому и интересному пути, модель Гугла определяет объекты (машины, деревья, гидранты) с точностью 98%, когда обычный человек имеет точность 95%. Немного картинок:

Но ведь вышла новая версия v3, невидимая! Не нужно теперь нам, обычным пользователям, проходить эту капчу! К тому же, recaptcha стала платной, теперь это качественный сервис, и они не зарабатывают на пользователях. Да, разработчики платят за запросы, если трафик большой (1M запросов/м), но на нас, пользователях, теперь не зарабатывают, заставляя нас решать капчу!

Ребята:) невидимая капча никогда не могла защитить от роботов. Почему? Посмотрим как она работает и узнаем, почему даже с новой версией Гугл остаётся в выгоде. Новая, невидимая капча собирает данные о вашей активности, то, как мы взаимодействуем с сайтами, водим мышкой, ходим по страницам. Кстати, используется информация не только с того сайта, где находится эта капча.

Теперь, подумайте: а вот как эта информация собирается, куда вы кликаете, что делаете на сайтах? Правильно, аналитика. Таким образом, Гугл собирает информацию о пользователях даже с тех сайтов, где аналитика не установлена. А ввиду того, что альтернатив reCaptch практически по факту нет, люди вынуждены ее ставить, т.к. обычная капча с текстом решается за секунды.

Мы это все понимаем: аналитика важна для Google. Она позволяет выдавать рекламу правильно, повышая ставку и доход с нее. Каждый из вас использует аналитику от Google на своем сайте? Я знаю, ее используют, но далеко не все. Кто-то не хочет, кому-то не нужно. Да, она хороша для продающих сайтов, чтобы делать А/Б тестирование, да и вообще, улучшать маркетинговое планирование, например. Но она установлена на примерно 20% сайтов. Google Search люди тоже перестают использовать, переходя на альтернативы. И тут верно, Google Search выдает сайты, в зависимости от того, что вы ищете, рекламные предпочтения меняются. Если доступа к информации о пользователе через поиск нет, можно «внедриться» в сайты. Ведь логично, что пользователь перейдет из поиска на какой-то сайт, и вероятность, что там стоит капча от Google — велика. При регистрации новой reCaptcha вы указываете домен, информация о страницах домена есть в кравлере Google. Проходя капчу на этом домене, Google сразу поймет ваш интерес, все просто. Вы используете DuckDuckGo, и другие сервисы, альтернативы, чтобы оградить Google от сбора вашей информации? У вас в браузере стоит блокировка трекеров? Ха-ха, бессмысленно и наивно! Посещая сайты с reCaptch, информация о вас будет пополнять базу предпочтительной рекламы Google для вас. И вот то дело: ничего не поделаешь, блокировать капчу на сайтах? Да в большинстве случаев это тоже самое, что выключить JS в браузере. Ограничивать ее работу, и разрешать скрипт капчи только на страницах, где есть какие либо формы? Тогда ждите капчу. Google не сможет «определить» робот вы, или нет. И да, будьте готовы видеть капчу каждый раз :)

То есть, на нас опять зарабатывают? Да!

На самом деле, это грустно. Многие люди стремятся скрыться от слежке корпораций: используют сторонние поисковые сети, сторонние почтовые сервисы, различные инструменты и так далее. В итоге, "опасность" поджидает почти на каждом сайте. И самое интересное, что защититься не получится, пока сайты не перейдут на другие решения (например: https://smartcaptcha.pages.dev/docs/).

Можно пробовать блокировать reCaptcha, но далеко ли вы уйдете? Ни одна форма не позволит себя отправить. Можно блокировать лишь трекеры (к сожалению, у reCaptcha они встроены в само решение, поэтому их не блокируют популярные решения против слежки), но каждый раз искать гидрант на картинке - удовольствие не из лучших.