{"id":14289,"url":"\/distributions\/14289\/click?bit=1&hash=892464fe46102746d8d05914a41d0a54b0756f476a912469a2c12e8168d8a933","title":"\u041e\u0434\u0438\u043d \u0438\u043d\u0441\u0442\u0440\u0443\u043c\u0435\u043d\u0442 \u0443\u0432\u0435\u043b\u0438\u0447\u0438\u043b \u043f\u0440\u043e\u0434\u0430\u0436\u0438 \u043d\u0430 5%, \u0430 \u0441\u0440\u0435\u0434\u043d\u0438\u0439 \u0447\u0435\u043a \u2014 \u043d\u0430 20%","buttonText":"","imageUuid":""}

Арам Вирабян

14 июл 2021 14.07.2021

Тайный контроль Google через reCaptcha

ReСaptcha существует уже довольно давно. Если посмотреть на ее развитие, например, как появлялись новые решения: капчи v1, v2, то можно заметить интересные детали, которые, кстати, были подтверждены официальными представителями.

Мало кто помнит версию v1, но суть ее было простой: вам нужно было написать, какой текст указан на картинке. Примечательно, что сами картинки брались из книг, которые не были оцифрованы. Да, вы верно подметили, таким образом сервис reCaptcha занимался оцифровкой старых газет, книг и не только.

Нет, вы не задумывались, почему reCaptcha была бесплатной? Ведь представьте насколько невыгодно содержать капчу за свой счёт, учитывая что там огромные расходы на сервера и не только. Не кажется это странным?

С первой версией разобрались, по факту — она приносила прибыль (потенциально с оцифровки книг и газет).

Вторая версия отличалась от первой, было предложено отмечать картинки. Например, "выберите все изображения, где есть машины*. Тут такая же схема. Google занимается разработкой собственных машин (кстати, они уже начали работать в этом плане, есть работающие прототипы), но все мы понимаем: чтобы машина ездила сама (а это и есть их идея, машины без водителя), она должна быть умной: никто не хочет остаться без лишнего гидранта на улице и затопить целый район. А ремонт машины, которая врезалась в дерево на большой скорости — тоже не дешевле развлечение.

Дисклаймер: но как Tesla смогла без капч научить машины ездить автономно? Хм! Тут не все так просто. Да, Теслы могут ездить по дорогам, которые относительно свободные. В таком случае ей остаётся следить только за разметкой и препятствиями (люди, машины). Даже при этом водитель должен находиться за рулём и следить за автопилотом.

Google же озадачены разработать комплексное решение. Ведь, чтобы автопилот смог работать на безопасном уровне без человека — он должен учитывать любые ситуации.

Так мы с вами и помогли Google собрать датасет. Кстати, датасеты и их разметка — на самом деле очень дорогая штука. Представьте, сколько займет времени разметить человеку миллион картинок. И, это не все! Те, кто работал с машинным обучением меня уже должны были понять.

Когда вы обучили модель, вам нужно повысить ее процент успешных угадываний. Вы даёте ей картинки, на которых есть, либо нет машин, смотрите на результат и проверяете. И тут опять нужны новые размеченные картинки, чтобы было с чем сравнивать. Поэтому, часть картинок которые мы видели были те, которые модель Google обработала: где есть машины, а где нет. Кстати, обычно разработчики предусматривают получение результата не вроде «машина есть/машины нет», а немного иначе: «вероятность, что есть машина — 30%».

Зная примерные мерки, благодаря стадному эффекту людей, им удалось довести все до идеала. Кстати, со временем, в капчу стали добавлять «усложнения», а именно: вначале на капчах крупным планом были изображены объекты (если они были), а позже — они были изображены ближе, то есть, на картинке была только часть машины. Это тоже важный момент, чтобы научиться определять машины более «точно». Есть метрика IoU, которая это измеряет. Она показывает, насколько точно вы выделили объект, вдруг, вы захватили много пустого пространства вместе с объектом?

Благодаря этому долгому и интересному пути, модель Гугла определяет объекты (машины, деревья, гидранты) с точностью 98%, когда обычный человек имеет точность 95%. Немного картинок:

Но ведь вышла новая версия v3, невидимая! Не нужно теперь нам, обычным пользователям, проходить эту капчу! К тому же, recaptcha стала платной, теперь это качественный сервис, и они не зарабатывают на пользователях. Да, разработчики платят за запросы, если трафик большой (1M запросов/м), но на нас, пользователях, теперь не зарабатывают, заставляя нас решать капчу!

Ребята:) невидимая капча никогда не могла защитить от роботов. Почему? Посмотрим как она работает и узнаем, почему даже с новой версией Гугл остаётся в выгоде. Новая, невидимая капча собирает данные о вашей активности, то, как мы взаимодействуем с сайтами, водим мышкой, ходим по страницам. Кстати, используется информация не только с того сайта, где находится эта капча.

Теперь, подумайте: а вот как эта информация собирается, куда вы кликаете, что делаете на сайтах? Правильно, аналитика. Таким образом, Гугл собирает информацию о пользователях даже с тех сайтов, где аналитика не установлена. А ввиду того, что альтернатив reCaptch практически по факту нет, люди вынуждены ее ставить, т.к. обычная капча с текстом решается за секунды.

Мы это все понимаем: аналитика важна для Google. Она позволяет выдавать рекламу правильно, повышая ставку и доход с нее. Каждый из вас использует аналитику от Google на своем сайте? Я знаю, ее используют, но далеко не все. Кто-то не хочет, кому-то не нужно. Да, она хороша для продающих сайтов, чтобы делать А/Б тестирование, да и вообще, улучшать маркетинговое планирование, например. Но она установлена на примерно 20% сайтов. Google Search люди тоже перестают использовать, переходя на альтернативы. И тут верно, Google Search выдает сайты, в зависимости от того, что вы ищете, рекламные предпочтения меняются. Если доступа к информации о пользователе через поиск нет, можно «внедриться» в сайты. Ведь логично, что пользователь перейдет из поиска на какой-то сайт, и вероятность, что там стоит капча от Google — велика. При регистрации новой reCaptcha вы указываете домен, информация о страницах домена есть в кравлере Google. Проходя капчу на этом домене, Google сразу поймет ваш интерес, все просто. Вы используете DuckDuckGo, и другие сервисы, альтернативы, чтобы оградить Google от сбора вашей информации? У вас в браузере стоит блокировка трекеров? Ха-ха, бессмысленно и наивно! Посещая сайты с reCaptch, информация о вас будет пополнять базу предпочтительной рекламы Google для вас. И вот то дело: ничего не поделаешь, блокировать капчу на сайтах? Да в большинстве случаев это тоже самое, что выключить JS в браузере. Ограничивать ее работу, и разрешать скрипт капчи только на страницах, где есть какие либо формы? Тогда ждите капчу. Google не сможет «определить» робот вы, или нет. И да, будьте готовы видеть капчу каждый раз :)

То есть, на нас опять зарабатывают? Да!

На самом деле, это грустно. Многие люди стремятся скрыться от слежке корпораций: используют сторонние поисковые сети, сторонние почтовые сервисы, различные инструменты и так далее. В итоге, "опасность" поджидает почти на каждом сайте. И самое интересное, что защититься не получится, пока сайты не перейдут на другие решения (например: https://smartcaptcha.pages.dev/docs/).

Можно пробовать блокировать reCaptcha, но далеко ли вы уйдете? Ни одна форма не позволит себя отправить. Можно блокировать лишь трекеры (к сожалению, у reCaptcha они встроены в само решение, поэтому их не блокируют популярные решения против слежки), но каждый раз искать гидрант на картинке - удовольствие не из лучших.

5 показов

11K открытий

56 комментариев

Написать комментарий...

Показать всё . Вы видите только часть дискуссии

Dmitriy

15.07.2021

В капчах уже заложен результат который пропускает пользователя. какой смысл обучения если ответ уже известен?

Ответить

Развернуть ветку

Арам Вирабян

15.07.2021 Автор

Очень интересный вопрос, на самом деле. Явно, Гугл не расскажет, как происходит проверка, но вероятно как-то так:

1. Часть картинок (гарантированно 2) - уже размечены, то есть, Гугл знает, что там, например, есть машины.

2. Часть картинок (около 3) - мусор, то есть, левые картинки, явно не подходящие по тематику вопроса.

3. Часть картинок (остальные) - новые данные, то есть, Гугл недавно взял и нашел на картах машины с помощью уже обученной модели, и знает вероятность того, что это машина (0-100%), и предлагает вам эти картинки. Если вы выберите верно все размеченные и пропустите левые картинки, Гугл "доверится вам", и подтвердить/опровергнет, что картинки из 3 этапа верны (такая вот проверка обучения, поднятие точности). Разумеется, что вы не будете являться единственным фактором, нужно чтобы много пользователей ответили как вы.

Ответить

Развернуть ветку

Koan

15.07.2021

Тут незачем делать догадки.
Этот алгоритм описан везде где только можно ещё десять лет назад.
С добрым утром!

Ответить

Развернуть ветку

Арам Вирабян

15.07.2021 Автор

Ой, ну очень уж интересно, reCaptcha обновляется очень часто. И да, reCaptcha v3 вообще недавно появилась, в тех статьях в будущем побывали? А вообще, буду рад, если покажете, я как-то только беглые описания нахожу.

Ответить

Развернуть ветку

Показать 56 комментариев . Вы видите только часть дискуссии

Написать комментарий...

53 комментария

Раскрывать всегда