Как капча превратила миллионы пользователей в бесплатную рабочую силу Google
В 2000-х годах капча воспринималась как цифровая формальность — искажённые символы или изображения, которые нужно было распознать, чтобы получить доступ к сайту. Однако эта технология оказалась частью масштабной системы сбора и разметки данных, в которой участвовали миллионы пользователей, зачастую не осознавая этого.
Классическая CAPTCHA (Completely Automated Public Turing test to tell Computers and Humans Apart) была придумана как защита от автоматических действий: регистрации ботами, спама, автоматизированных голосов в онлайн-опросах.
В 2007 году исследователи из Университета Карнеги-Меллона разработали reCAPTCHA — технологию, которая совмещала проверку пользователя с задачей распознавания плохо читаемых слов в оцифровках. Система показывала два слова: одно заведомо известное, второе — проблемный фрагмент из отсканированных книг. Если пользователь правильно вводил первое, его ввод второго засчитывался как достоверный. Так миллионы пользователей помогали оцифровывать библиотеки.
По данным Wired, к 2008 году через систему распознавалось около 4 миллионов слов в день.
Google и масштабирование технологии
В 2009 году Google приобрёл reCAPTCHA и интегрировал её в собственную инфраструктуру — в том числе в проекты Google Books, Street View и Google Maps. Помимо книг, капчи начали использоваться для разметки визуальных объектов: номеров домов, дорожных знаков, транспорта. Пользователи, решая визуальные капчи, помогали улучшать алгоритмы компьютерного зрения, в том числе для автопилотных систем.
С 2010-х годов капчи изменились: от текстовых перешли к визуальным, а затем — к невидимым. В версии reCAPTCHA v3 пользователь не видит задач. Вместо этого система оценивает его поведение: движение мыши, скорость взаимодействия с элементами, характеристики браузера и трафика.
Капча, задуманная как защита от ботов, стала одним из первых масштабных краудсорсинговых инструментов для сбора данных и обучения нейросетей. Участие пользователей было добровольно-принудительным: выполнение простого действия на сайте фактически означало участие в процессе машинного обучения.
Сегодня эта практика продолжается в более скрытых формах. И возможно, большинство из нас внесли вклад в развитие технологий, даже не подозревая об этом.
Подписывайтесь на мой тг-канал - там тоже много интересного =)