Новое исследование показало: даже самые продвинутые ИИ не умеют определять время по часам

Казалось бы, прочитать время на обычных аналоговых часах — простейшая задача. Для человека это действительно так: по данным нового исследования, средняя точность людей составляет 89%. Но для искусственного интеллекта результат оказался неожиданно провальным: лучший из протестированных ИИ смог правильно назвать время лишь в 13% случаев.

Исследователь Алек Сафар разработал специальный тест под названием ClockBench и проверил на нём 11 крупных языковых моделей от шести компаний. В тесте использовались 180 уникальных циферблатов: с римскими и арабскими цифрами, без минутных делений, с зеркальными или цветными фонами. Всего ИИ и люди отвечали на 720 вопросов, включая не только чтение времени, но и вычисления — например, смещение стрелок или перевод времени в другие часовые пояса.

Результаты показали: именно с визуальной частью ИИ справляются хуже всего. Так, Google Gemini 2.5 Pro стал лидером среди моделей, но всё равно показал лишь 13,3% точности. GPT-5 оказался на третьем месте с 8,4%. Хуже всех справился Grok 4 — всего 0,7%. Для сравнения: у людей средняя ошибка составила три минуты, у ИИ — около часа, а у слабых моделей доходила до трёх часов, то есть практически случайного угадывания.

Особенно сложными для нейросетей оказались часы с римскими цифрами (точность 3,2%) и нестандартными элементами вроде цветных фонов или секундной стрелки. Самыми «лёгкими» оказались циферблаты только с часовой стрелкой: там модели справлялись в 23% случаев.

Интересно, что когда ИИ всё же правильно считывал время, он без проблем выполнял дальнейшие математические операции — например, прибавлял часы или переводил во времени. Это показывает, что дело не в вычислениях, а именно в интерпретации визуальной информации.

ClockBench задуман как долгосрочный эталон для проверки ИИ. Его полная версия останется закрытой, чтобы не попасть в обучающие наборы, но есть и облегчённый вариант для публичного тестирования. Сафар отмечает, что пока модели отстают от человека на десятки процентов, но первые результаты вселяют осторожный оптимизм: хотя бы базовые элементы визуального рассуждения у них уже есть.

А как вы думаете, зачем ИИ уметь определять время по часам?

#ai #aitechnology #claude #chatgpt #gemini #qwen #mistral #языковыемодели #сравнение #технологии #тест #исследование #искусственныйинтеллект