Как ИИ научился решать CAPTCHA: от старого доброго OCR до трансформеров

CAPTCHA уже давно стала частью повседневного онлайн-опыта — от искажённых надписей до фото-пазлов и аудио-загадок. То, что задумывалось как рубеж между человеком и машиной, со временем стало вызовом для автоматизаторов, QA-инженеров и разработчиков. Можно ли научить код обходить капчи с такой же точностью, как делает это человек? Давайте разберёмся, как технологии искусственного интеллекта шаг за шагом превратили когда-то надёжную защиту в решаемую задачу.

Прежде чем понять, как ломают капчи, стоит разобраться, из чего они состоят. Наиболее распространённые формы:

Текстовые изображения — классические капчи с искаженными символами. Их цель — помешать распознаванию текста алгоритмами. Простые OCR-решения больше не справляются: символы могут накладываться, иметь необычные формы или быть замаскированы шумом.
reCAPTCHA v2 от Google — известная форма: чекбокс и при подозрении — выбор изображений (например, с автобусами). Алгоритмы должны уметь определять объекты на фото.
reCAPTCHA v3 и Cloudflare Turnstile — капчи, которые не требуют действий: они анализируют поведение пользователя и его окружение в фоновом режиме.
hCaptcha, FunCaptcha — альтернативы с похожими механиками: классификация изображений или интерактивные задачи вроде вращения объектов.
GeeTest и азиатские капчи — головоломки с фрагментами изображений и слайдерами. Требуют не только визуального восприятия, но и имитации поведения пользователя.
Аудио-защита — обычно доступна как альтернатива для пользователей с нарушениями зрения. Речь с шумами распознаётся труднее, хотя с развитием ASR (automatic speech recognition) и это направление стало уязвимым.
Скрытые проверки — honeypot-поля, анализ таймингов и движений мыши. Цель — обмануть ботов, а не пользователей.

Все эти виды CAPTCHA требуют от системы разного набора умений — визуального анализа, распознавания текста, аудиоанализа и даже поведенческой симуляции. Универсальный решатель — задача не тривиальная.

Первая волна автоматизации CAPTCHA была основана на OCR — методах оптического распознавания текста. Удавалось достичь успехов в распознавании простых капч: фильтрация, сегментация символов и сопоставление с шаблонами. Например, Tesseract легко справлялся с «капчами образца 2005 года».

Но с усложнением — слипшиеся символы, вариативный фон, случайные искажения — классический OCR начал сдавать позиции. Сегментация стала нерешаемой, если буквы перекрывались или менялись шрифты.

На сцену вышло машинное обучение. Первоначально — SVM, затем, с развитием фреймворков, — глубокие нейросети. В 2014 Google представил сеть, способную распознать текстовые капчи с точностью 99,8%. Парадокс: разработчик защиты стал её первым взломщиком.

Похожая история повторилась с графическими задачами. CNN-модели (сверточные нейросети) научились распознавать содержимое изображений лучше большинства людей. С 2024 года даже задачи типа «найди светофор» решаются с точностью 100% с помощью YOLO и аналогичных моделей.

Отлично подходят для извлечения визуальных признаков. Используются как первый этап в распознавании капчи. Можно применить CNN для выделения векторов признаков с изображения, которые затем анализируются другим блоком.

Идеально обрабатывают последовательности, что важно для текста или звука. Пример: картинка капчи преобразуется в линейную последовательность фичей, которые RNN декодирует в строку.

Стандартная архитектура для распознавания текста на изображениях. CNN извлекает карту признаков, RNN обрабатывает как временной ряд, а CTC loss позволяет выравнивать вход и выход без ручной сегментации.

Работают без рекурсии, опираясь на self-attention. ViT (Vision Transformer) уже применяются к изображениям. Возможность комбинировать зрение и текст открывает путь к универсальным моделям. Swin-Transformer в 2023 году показал точность выше 90% на сложных капчах.

Используются не для взлома напрямую, а для генерации тренировочных капч. Это позволяет создать бесконечный поток сложных примеров для обучения моделей.

В открытых репозиториях можно найти:

CNN + BiLSTM решатели с точностью выше 95%
генераторы капч для создания датасетов
простые скрипты на OpenCV + Tesseract
браузерные расширения (например, Buster для аудио)

2Captcha / Rucaptcha — классика жанра. Человеческие решатели, высокая точность, но задержка 7–15 секунд.
SolveCaptcha — гибрид: сначала ИИ, потом человек (если не справился). Надёжно и быстро.
noCaptchaAi — полностью на ИИ, до 99% точности, время отклика ~5 секунд.

Подход - Пример - Скорость - Надёжность - Стоимость за 1000

Люди - 2Captcha - 10–20 c - ~99% - ~$2.00

Искусственный - noCaptchaAi - ~5 c - до 99% - ~$0.80

Гибрид - SolveCaptcha - 5–15 c - ~99.9% - ~$1.50

Сегодня уже очевидно: текстовая и визуальная капча — не панацея. ИИ умеет читать, слушать, распознавать и даже симулировать действия человека. В ответ индустрия капч переходит к фоновым механизмам, поведению и поведенческому анализу.

Новые решения прячутся от пользователя: они анализируют устройство, браузер, сетевую активность и пытаются оценить «человечность» без явного запроса. В перспективе — уход от капчи как интерфейса и переход к модели доверия, где подтверждение — не в форме теста, а в накопленных признаках поведения и цифровой идентичности.

Но пока — гонка продолжается. Разработчики придумывают новые способы проверки, а AI CAPTCHA solver'ы всё успешнее проходят даже самые изощрённые барьеры.

Оставайтесь с нами, если хотите разобраться, как работает антибот-софт — или создать свой.

Как ИИ научился решать CAPTCHA: от старого доброго OCR до трансформеров

CAPTCHA: какие бывают и зачем усложняются

История взлома: от Tesseract до нейросетей

Нейросетевые архитектуры в бою

Сверточные сети (CNN)

Рекуррентные сети (RNN, LSTM, GRU)

CRNN — комбинация CNN + RNN

Трансформеры

GAN

Из теории в практику: библиотеки и сервисы

GitHub и open-source

API и платные решения

Что дальше