ИИ-модели обладают знаниями аспиранта, но решают зрительные задачки на уровне трёхлетнего ребёнка: учёные предложили новый бенчмарк BabyVision
Современные мультимодальные модели искусственного интеллекта уверенно сдают экзамены на уровне аспирантуры. Они решают задачи по математике, рассуждают о философии и набирают более 90% на сложных тестах, рассчитанных на экспертов. Однако новое исследование показывает, что за пределами языковой плоскости их способности не настолько развиты. Даже самые продвинутые системы испытывают серьёзные трудности с визуальными задачами, которые человек осваивает в первые годы жизни.
Группа исследователей из нескольких университетов и технологических компаний представила бенчмарк BabyVision, специально разработанный для проверки базовых зрительных навыков. В отличие от привычных тестов, где изображение легко переводится в текст и решается за счёт рассуждений, эти задания почти не поддаются вербализации. Нужно заметить едва различимую форму, проследить линию в лабиринте, представить трёхмерный объект с другого ракурса или понять визуальный паттерн без описаний и подсказок.
Результаты оказались показательными. Лучшей моделью в тестах стала Gemini 3-Pro-Preview, набравшая около 50% правильных ответов. Для сравнения, взрослые люди справляются с этими задачами более чем в 90% случаев. Большинство других моделей, включая OpenAI GPT-5.2, показали результаты на уровне или ниже среднего трёхлетнего ребёнка.
Проблема, как подчёркивают авторы исследования, не в сложности заданий и не в нехватке «интеллекта» в привычном смысле. Эти задачи относятся к зрительным навыкам, которые формируются ещё до того, как человек начинает активно пользоваться речью. Ребёнок не описывает форму словами и не проговаривает маршрут в лабиринте — он просто видит и сопоставляет. Современные модели действуют иначе: они стремятся перевести изображение в текст, упростить его до набора признаков и дальше рассуждать уже словами. Именно на этом этапе теряются детали, от которых и зависит правильный ответ.
Характерный пример — задача с недостающим фрагментом сложной геометрической фигуры. Модель подробно и уверенно объясняет, почему выбранный вариант подходит, перечисляет выступы, углы и «логические ограничения», но при этом промахивается мимо правильного контура. Для человека различие очевидно с первого взгляда, потому что это задача на визуальное совпадение, а не на рассуждение.
Исследователи подчёркивают, что этот разрыв — системный. Он проявляется во всех категориях BabyVision: от отслеживания линий до пространственного воображения. Добавление большего числа параметров или более длинных цепочек рассуждений помогает лишь ограниченно. Там, где требуется непрерывное зрительное восприятие, язык оказывается плохой заменой зрению.
Отдельный интерес представляет попытка улучшить результаты за счёт генеративных моделей изображений и видео. В экспериментальной версии бенчмарка моделям разрешили не описывать решение, а буквально рисовать его: обводить линии, отмечать элементы, показывать ход рассуждения визуально. Такой подход действительно приблизил их поведение к человеческому, но и он пока не привёл к стабильным правильным ответам. Даже здесь ошибки остаются заметными.
Авторы исследования делают из этого вполне приземлённый вывод. Сегодняшние ИИ великолепно работают с тем, что можно выразить словами, но плохо справляются с тем, что словами выразить трудно или невозможно. Это не мешает им производить впечатление универсальных систем, но становится серьёзным ограничением там, где требуется взаимодействие с физическим миром — от робототехники до бытовых задач.