{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Тайный контроль Google через reCaptcha

ReСaptcha существует уже довольно давно. Если посмотреть на ее развитие, например, как появлялись новые решения: капчи v1, v2, то можно заметить интересные детали, которые, кстати, были подтверждены официальными представителями.

Мало кто помнит версию v1, но суть ее было простой: вам нужно было написать, какой текст указан на картинке. Примечательно, что сами картинки брались из книг, которые не были оцифрованы. Да, вы верно подметили, таким образом сервис reCaptcha занимался оцифровкой старых газет, книг и не только.

Нет, вы не задумывались, почему reCaptcha была бесплатной? Ведь представьте насколько невыгодно содержать капчу за свой счёт, учитывая что там огромные расходы на сервера и не только. Не кажется это странным?

С первой версией разобрались, по факту — она приносила прибыль (потенциально с оцифровки книг и газет).

Вторая версия отличалась от первой, было предложено отмечать картинки. Например, "выберите все изображения, где есть машины*. Тут такая же схема. Google занимается разработкой собственных машин (кстати, они уже начали работать в этом плане, есть работающие прототипы), но все мы понимаем: чтобы машина ездила сама (а это и есть их идея, машины без водителя), она должна быть умной: никто не хочет остаться без лишнего гидранта на улице и затопить целый район. А ремонт машины, которая врезалась в дерево на большой скорости — тоже не дешевле развлечение.

Дисклаймер: но как Tesla смогла без капч научить машины ездить автономно? Хм! Тут не все так просто. Да, Теслы могут ездить по дорогам, которые относительно свободные. В таком случае ей остаётся следить только за разметкой и препятствиями (люди, машины). Даже при этом водитель должен находиться за рулём и следить за автопилотом.

Google же озадачены разработать комплексное решение. Ведь, чтобы автопилот смог работать на безопасном уровне без человека — он должен учитывать любые ситуации.

Так мы с вами и помогли Google собрать датасет. Кстати, датасеты и их разметка — на самом деле очень дорогая штука. Представьте, сколько займет времени разметить человеку миллион картинок. И, это не все! Те, кто работал с машинным обучением меня уже должны были понять.

Когда вы обучили модель, вам нужно повысить ее процент успешных угадываний. Вы даёте ей картинки, на которых есть, либо нет машин, смотрите на результат и проверяете. И тут опять нужны новые размеченные картинки, чтобы было с чем сравнивать. Поэтому, часть картинок которые мы видели были те, которые модель Google обработала: где есть машины, а где нет. Кстати, обычно разработчики предусматривают получение результата не вроде «машина есть/машины нет», а немного иначе: «вероятность, что есть машина — 30%».

Зная примерные мерки, благодаря стадному эффекту людей, им удалось довести все до идеала. Кстати, со временем, в капчу стали добавлять «усложнения», а именно: вначале на капчах крупным планом были изображены объекты (если они были), а позже — они были изображены ближе, то есть, на картинке была только часть машины. Это тоже важный момент, чтобы научиться определять машины более «точно». Есть метрика IoU, которая это измеряет. Она показывает, насколько точно вы выделили объект, вдруг, вы захватили много пустого пространства вместе с объектом?

Благодаря этому долгому и интересному пути, модель Гугла определяет объекты (машины, деревья, гидранты) с точностью 98%, когда обычный человек имеет точность 95%. Немного картинок:

Но ведь вышла новая версия v3, невидимая! Не нужно теперь нам, обычным пользователям, проходить эту капчу! К тому же, recaptcha стала платной, теперь это качественный сервис, и они не зарабатывают на пользователях. Да, разработчики платят за запросы, если трафик большой (1M запросов/м), но на нас, пользователях, теперь не зарабатывают, заставляя нас решать капчу!

Ребята:) невидимая капча никогда не могла защитить от роботов. Почему? Посмотрим как она работает и узнаем, почему даже с новой версией Гугл остаётся в выгоде. Новая, невидимая капча собирает данные о вашей активности, то, как мы взаимодействуем с сайтами, водим мышкой, ходим по страницам. Кстати, используется информация не только с того сайта, где находится эта капча.

Теперь, подумайте: а вот как эта информация собирается, куда вы кликаете, что делаете на сайтах? Правильно, аналитика. Таким образом, Гугл собирает информацию о пользователях даже с тех сайтов, где аналитика не установлена. А ввиду того, что альтернатив reCaptch практически по факту нет, люди вынуждены ее ставить, т.к. обычная капча с текстом решается за секунды.

Мы это все понимаем: аналитика важна для Google. Она позволяет выдавать рекламу правильно, повышая ставку и доход с нее. Каждый из вас использует аналитику от Google на своем сайте? Я знаю, ее используют, но далеко не все. Кто-то не хочет, кому-то не нужно. Да, она хороша для продающих сайтов, чтобы делать А/Б тестирование, да и вообще, улучшать маркетинговое планирование, например. Но она установлена на примерно 20% сайтов. Google Search люди тоже перестают использовать, переходя на альтернативы. И тут верно, Google Search выдает сайты, в зависимости от того, что вы ищете, рекламные предпочтения меняются. Если доступа к информации о пользователе через поиск нет, можно «внедриться» в сайты. Ведь логично, что пользователь перейдет из поиска на какой-то сайт, и вероятность, что там стоит капча от Google — велика. При регистрации новой reCaptcha вы указываете домен, информация о страницах домена есть в кравлере Google. Проходя капчу на этом домене, Google сразу поймет ваш интерес, все просто. Вы используете DuckDuckGo, и другие сервисы, альтернативы, чтобы оградить Google от сбора вашей информации? У вас в браузере стоит блокировка трекеров? Ха-ха, бессмысленно и наивно! Посещая сайты с reCaptch, информация о вас будет пополнять базу предпочтительной рекламы Google для вас. И вот то дело: ничего не поделаешь, блокировать капчу на сайтах? Да в большинстве случаев это тоже самое, что выключить JS в браузере. Ограничивать ее работу, и разрешать скрипт капчи только на страницах, где есть какие либо формы? Тогда ждите капчу. Google не сможет «определить» робот вы, или нет. И да, будьте готовы видеть капчу каждый раз :)

То есть, на нас опять зарабатывают? Да!

На самом деле, это грустно. Многие люди стремятся скрыться от слежке корпораций: используют сторонние поисковые сети, сторонние почтовые сервисы, различные инструменты и так далее. В итоге, "опасность" поджидает почти на каждом сайте. И самое интересное, что защититься не получится, пока сайты не перейдут на другие решения (например: https://smartcaptcha.pages.dev/docs/).

Можно пробовать блокировать reCaptcha, но далеко ли вы уйдете? Ни одна форма не позволит себя отправить. Можно блокировать лишь трекеры (к сожалению, у reCaptcha они встроены в само решение, поэтому их не блокируют популярные решения против слежки), но каждый раз искать гидрант на картинке - удовольствие не из лучших.

0
56 комментариев
Написать комментарий...
Shlomo Goldenberg

Приз за самый безграмотный текст в виде учебника русского языка этому господину

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Арам Вирабян
Автор

Ну, недавно reCaptcha от Google стала платной :) 1$ за 1к запросов, тоже может быть отталкивающим фактором, после этого, такие компании как Discord, CloudFlare переехали на hCaptcha.

Ответить
Развернуть ветку
2 комментария
Дмитрий О

Все для нашей кондефициальности! 

Ответить
Развернуть ветку
Sergio Molotkoni

Статья хорошая, на слежку лично мне пофигу... 

Ответить
Развернуть ветку
Арам Вирабян
Автор

Если честно, я тоже особо не обращаю внимания на слежку, пользуюсь Ассистентом, Поиском, их Сервисами. Просто осознал, как на самом деле скрыто работает у них все, никогда бы так и не подумал, что reCaptcha (новая) может быть потенциальным инструментом сбора информации. Думаю, что знать такое - интересно и может окажется полезным :)

Ответить
Развернуть ветку
Бабка в засаде

Ээээ добро пожаловать в Интернет, вы видимо тут недавно? Эти вещи известны давным-давно. И да, если в какой-то сделке ты не видишь товар, то товар - это ты

Ответить
Развернуть ветку
Dmitriy

В капчах уже заложен результат который пропускает пользователя. какой смысл обучения если ответ уже известен? 

Ответить
Развернуть ветку
Арам Вирабян
Автор

Очень интересный вопрос, на самом деле. Явно, Гугл не расскажет, как происходит проверка, но вероятно как-то так:

1. Часть картинок (гарантированно 2) - уже размечены, то есть, Гугл знает, что там, например, есть машины.

2. Часть картинок (около 3) - мусор, то есть, левые картинки, явно не подходящие по тематику вопроса.

3. Часть картинок (остальные) - новые данные, то есть, Гугл недавно взял и нашел на картах машины с помощью уже обученной модели, и знает вероятность того, что это машина (0-100%), и предлагает вам эти картинки. Если вы выберите верно все размеченные и пропустите левые картинки, Гугл "доверится вам", и подтвердить/опровергнет, что картинки из 3 этапа верны (такая вот проверка обучения, поднятие точности). Разумеется, что вы не будете являться единственным фактором, нужно чтобы много пользователей ответили как вы.

Ответить
Развернуть ветку
2 комментария
Daniil Usoltsev

Как правило часть картинок размечена, а часть нет. Поэтому тебя пропустит дальше если ты правильно ответил/отметил уже размеченные картинки

Ответить
Развернуть ветку
Корректный Интеллект

Какая-то часть картинок не размечена, а другая уже размечена для проверки что человек не робот и не тыкает куда попало

Ответить
Развернуть ветку
Марк Климов

"Многие люди стремятся скрыться от слежке корпораций"

Сейчас даже рядом находящиеся люди с смартфонами iOS/Android способствуют слежке, скрыться с каждым днём будет всё сложнее во всех сферах жизни. У Гугла  одни только Google Chrome + Android + Google Analytics позволяет следить за большей частью аудитории.

Ответить
Развернуть ветку
Арам Вирабян
Автор

Верно, но большинство трекеров можно принудительно отключать, блокируя доступ к их серверам. NextDNS позволяют это делать, классный сервис.

Говоря о браузере - есть альтернативы, можно что-то найти по вкусу другое
Трекеры Google Analytics тоже легко блокируется (NextDNS умеет), да даже новый Microsoft Edge имеет такую функцию.

А вот когда мы говорим о reCaptcha, то тут действительно мы имеем дело с ловушкой, мы ничего не можем сделать. Эту технологию использует громадное количество сайтов, отказаться от них всех - ну сложно уж будет. По факту, сейчас reCaptcha выполняет частично роль Гугл Аналитики, если судить строго.

Ответить
Развернуть ветку
olja k

Если товар для вас бесплатен, то товар - это Вы.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Арам Вирабян
Автор

Спасибо, возьму на заметку😉

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Арам Вирабян
Автор

По факту, почти все население Земли, которое выходило в Интернет - продали, вполне оптимистично)

Ответить
Развернуть ветку
Anton Gamskiy

Пусть следят сколько хотят, зато за эти деньги делают отличный бесплатный поиск, карты, почту и развивают многие полезные для человечества сферы.

Ответить
Развернуть ветку
Bulat Ziganshin

зачем ставят камеры в лифтах? собирают информацию о нашей активности. когда идём на работу, что покупаем, поддерживаем ли навального. потом эта информация используется правительством москвы для зомбирования. не хотите быть зазомбированы - ходите пешком!

Ответить
Развернуть ветку
Leo Uvarov

это и для здоровья полезней. А еще лучше, если вы не живете в человейнике и лифта у вас нет вовсе.

Ответить
Развернуть ветку
Александр Верещагин

А ещё это очень полезно для здоровья. Движение - жизнь!;))
https://www.google.com/amp/s/rg.ru/amp/2016/02/04/v-niu-jorke-proshel-zabeg-po-stupenkami-neboskreba-empire-state-building.html

Ответить
Развернуть ветку
Alex Sedoff

xrumer с их xevil пробивает эти каптчи пачками)))
ну а на счёт сбора данных. сколько там активных браузеров хрома по всей планете Земля? админу сайта никакие скрипты устанавливать не нужно, гугл уже всю слежку встроил в свой браузер ;-)

Ответить
Развернуть ветку
Арам Вирабян
Автор

Ну могу порадоваться, что почти никогда не использовал Google Chrome на ПК, а на мобильных устройствах классных и удобных альтернатив пока не встречал :0

Очень нравится новенький Microsoft Edge: не собирает телеметрию, помогает блокировать трекеры, очень экономит ресурсы, имеет фишку "спящего режима" для вкладок и не только. Удивительно, я бы не сказал что он от Microsoft😁

Ответить
Развернуть ветку
1 комментарий
Nan Nan

Автор вылез из пещеры или что? 
Если ты не платишь за продукт - ты и есть продукт 
Не секрет, что гугол и его друзья из FAAN зарабатывают на аггрегации и продаже персональных и поведенческих данных 

Ответить
Развернуть ветку
Арам Вирабян
Автор

Суть этого поста не в страшилках, а чтобы рассказать, как именно этот процесс происходит.

Ответить
Развернуть ветку
Вася Пражкин
 но как Тесла смогла без капч научить машины ездить автономно

лютая муть, у автора все смешалось в голове, похоже

Ответить
Развернуть ветку
Ivan Boldyrev

Коварный гугл зарабатывает! Да как он посмел!

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Корректный Интеллект

Что не так? Они бесплатны

Ответить
Развернуть ветку
1 комментарий
Николай Кычкин

Мне вот интересно почему при заходе через vpn у Гугла все нормально, а у Яндекса появляется очень назойливая капча после каждого запроса?

Ответить
Развернуть ветку
Дмитрий Кулик

Потому что через твой VPN (на подсети) сидит еще куча народу, это любым поисковиком воспринимается как ботсеть, отсюда и запрос капчи. Просто так совпало, что сейчас на тебя яша ругается, завтра гугл будет ругаться. В Беларуси это давно головная боль, так как в стране половина пользователей сидит на общих IP, бывает гуглить невозможно.

Ответить
Развернуть ветку
2 комментария
Константин Сидоров

Возможно тут и были умные мысли, но я до них не дошел. Остановился на втором абзаце отборного бреда. 
Автору желаю подружиться с логикой, хотябы котому, что смысл капчи сверка написанного вводящим и того, что нарисовано на картинке, но программа заранее должна знать правильный ответ, НЕОЖИДАННО неправда ли!? 

Ответить
Развернуть ветку
Арам Вирабян
Автор

Мне вам что, ссылки на источники покидать? Могли бы поиск по картинкам провести, нашли бы все уже.. к тому же, советую хотябы комментарии читать, потому что уже это обговаривалось, дублирую:

1. Часть картинок (гарантированно 2) - уже размечены, то есть, Гугл знает, что там, например, есть машины.

2. Часть картинок (около 3) - мусор, то есть, левые картинки, явно не подходящие по тематику вопроса.

3. Часть картинок (остальные) - новые данные, то есть, Гугл недавно взял и нашел на картах машины с помощью уже обученной модели, и знает вероятность того, что это машина (0-100%), и предлагает вам эти картинки. Если вы выберите верно все размеченные и пропустите левые картинки, Гугл "доверится вам", и подтвердить/опровергнет, что картинки из 3 этапа верны (такая вот проверка обучения, поднятие точности). Разумеется, что вы не будете являться единственным фактором, нужно чтобы много пользователей ответили как вы.

Ответить
Развернуть ветку
Leo Uvarov

не обязательно. Часть картинок будет предварительно классифицированы, а часть вам подкинут еще не разобранных. 

Ответить
Развернуть ветку
Wera Ferat

А что есть альтернатива гугла, где все сделано, как надо? Или имели Яндекс в виду? Ну так там в разы хуже.

Ответить
Развернуть ветку
Арам Вирабян
Автор

Если мы рассматриваем поиск, то DuckDuckGo как альтернатива.

Ответить
Развернуть ветку
1 комментарий
L A
> Новая, невидимая капча собирает данные о вашей активности,

Обычно на 99% сайтов ещё и гугл-аналитика стоит.
Так что рекапча даже v3 тут ничего не добавляет.

Ответить
Развернуть ветку
Ass With Wings

Немного конспирологии прям :D
Но спасибо, интересно было почитать)

Ответить
Развернуть ветку
Vladislav Samorodov

У меня только один вопрос: как мы помогаем определять, что есть на карте, если система и так это уже знает?
UPD, вопросов больше не имею)

Ответить
Развернуть ветку
Yura Dovgal

Это что получается кликая по картинкам, я все это время бесплатно работал на Гугл ?
Так куда жаловаться, где получить деньги за проделанную мной работу ?

Ответить
Развернуть ветку
Канищев Максим

Какая-то мания преследования у автора. Капча сравнивает ответ пользователя с нужным ответом. 

Ответить
Развернуть ветку
Арам Вирабян
Автор

Советую изучить то, как работает reCaptcha v3, если кратко, то там очень сложный механизм. И даже если разработчик использует v2, v3 тоже задействуется.

Капча, которая сравнивает ответ с нужным ответом - это когда нужно текст переписать, либо старые версии recaptcha v2, но сейчас в них встроена и аналитика, что рассматривать пользователя с разных сторон.

Ответить
Развернуть ветку
Илья Краснов

Ну давай расскажи нам, что гугл следит за нами и зарабатывает

Ответить
Развернуть ветку
Арам Вирабян
Автор

Суть статьи в том, чтобы показать один из из интересных способов, о котором мало кто задумывался.

Ответить
Развернуть ветку
53 комментария
Раскрывать всегда