Чего ИИ пока не умеет
ИИ научился играть в шахматы, предсказывать погоду, моделировать сложные среды и справляться со множеством задач, которые людям даются с трудом. Он даже может поддерживать светскую беседу, что, по-моему, за гранью вообще.
Но в то же время такие вещи, как ходьба, поиск объектов в загроможденном пространстве или мысленное взаимодействие с физическими объектами остаются на удивление сложными даже для самых продвинутых нейросетей. «На удивление», потому что мы, люди, делаем это, не задумываясь (иногда стоило бы задумываться, но ладно).
То есть, имеются области, в которых ИИ превосходит людей, и наоборот. Это называется «парадокс Моравека» и звучит как неплохое основание для сотрудничества.
Давайте сегодня посмотрим поближе на то, чего ИИ пока не умеет, и подумаем, что можно выжать из этой ситуации.
Визуальное восприятие
Мы заточены на то, чтобы распознавать объекты в пространстве, особенно живые. В статье «How does our brain create a coherent image when we look at different objects?» («Как наш мозг создаёт целостный образ, когда мы смотрим на разные объекты?») Нидерландского Института Нейронаук (the Netherlands Institute for Neuroscience) говорится следующее:
«Нейроны в низкоуровневых областях мозга извлекают базовые признаки, такие как ориентация линий, глубина и цвет локальных элементов изображения. Они передают эту информацию в несколько среднеуровневых областей мозга. Нейроны в этих областях кодируют другие характеристики, такие как направление движения, цвет и фрагменты формы. Нейроны в среднеуровневых областях передают информацию на еще более высокие уровни для более абстрактного анализа визуальной сцены. Нейроны на этих более высоких уровнях кодируют категорию объектов и даже идентичность конкретных индивидуумов. Таким образом, каждый визуальный объект активирует сложное представление, которое поддерживается большим набором нейронов во многих областях мозга.»
Не только разные области мозга участвуют в распознавании изображений, но и наше внимание постоянно и очень быстро переключается с одного объекта на другой, чтобы мы их не смешивали.
Сверточные нейронные сети используют вдохновленный мозгом подход: они распознают различные признаки и наборы признаков, с помощью разных фильтров. Однако, они пока недостаточно хороши, чтобы их нельзя было запутать небольшими изменениями на уровне отдельных пикселей. Например, посмотрите на это очаровательное гуакамоле.
Это изображение взято из статьи «Fooling Neural Networks in the Physical World with 3D Adversarial Objects» («Одурачиваем нейросети в реальном мире с помощью видоизмененных 3D-изображений»).
Еще один хороший пример такого одурачивания, но с конкретной практической целью – Glaze. Glaze вносит в изображения искажения, невидимые для человеческого глаза, но мешающие нейросетям использовать его в качестве материала для обучения. Так художники могут защититься от копирования их уникального стиля с использованием ИИ.
Здравый смысл
Мы знаем, что не стоит трогать горячую плиту (угадайте, кто понял это на собственном опыте), переворачивать чашку с горячим чаем над коленями и надевать клоунскую шляпу на похороны (этого я не делала).
Я смотрю YouTube-канал Мэттью Бермана (Matthew Berman), где, помимо прочего, он тестирует новые языковые модели на здравый смысл. Один из тестов звучит так:
«Почта имеет ограничения по размеру конвертов для отправки: минимальные размеры — 14 см х 9 см. Максимальные размеры — 32.4 см х 22.9 см. У вас есть конверт размером 200 мм х 275 мм. Соответствует ли этот конверт допустимому размеру для отправки по почте согласно ограничениям?»
Вот какой ответ дал мне GPT-4o 14 мая 2025 года:
Что вы делаете в первую очередь, если что-то куда-то не помещается? Вы переворачиваете это и пробуете снова. Потом снова, хотя это не совсем логично. GPT-4o не «подумал» о том, чтобы перевернуть конверт.
Я решила сделать шаг вперед и намекнуть на решение.
Ну и вот вам пример того, как человек, который делает глупые ошибки, работает с ИИ, который делает глупые ошибки. Конечно же, конверт надо повернуть на 90 градусов, а не на 180.
GPT меня, впрочем, понял: длина и ширина поменялась местами. Но, по его мнению, это сути не меняет, ведь размер конверта остался прежним.
Потом я намекнула на решение еще раз, несколько более интенсивно.
Авторы статьи «Commonsense Reasoning for Conversational AI: A Survey of the State of the Art» («Здравый смысл у ИИ для диалогового общения: исследование уровня техники») пишут:
«Знание о том, что "машина не может находиться в двух местах одновременно", может восприниматься людьми как само собой разумеющееся, но у ИИ может не быть явной основы для такого знания.»
Другими словами, мы переживаем мир вокруг нас и поэтому не обязаны проговаривать определенные вещи, в то время как ИИ пока может учиться только из явных утверждений.
Взаимодействие с физическим миром
Какими навыками вы особенно гордитесь? Я регулярно занимаюсь йогой и хочу освоить стойку на голове. Однажды мне почти удалось это сделать, и я чуть не сломала шею в процессе, но это путь. Я учусь.
А роботы на базе ИИ тем временем учатся выполнять домашние обязанности. В статье 2024 года «Laundry-Folding Robots Are Finally Here—and They’re Backed by Jeff Bezos and OpenAI» («Роботы, складывающие белье, наконец-то здесь — и за ними стоят Джефф Безос и OpenAI») рассказывается о стартапе Physical Intelligence из Сан-Франциско, который работает над созданием физически интеллектуальных роботов. Основатели стартапа говорят:
«Насколько нам известно, ни одна предыдущая роботизированная система не была продемонстрирована для выполнения этой задачи на таком уровне сложности.»
Конечно, здесь есть чисто механические сложности. Но такие вещи, как контроль силы захвата или манипуляции с подвижной мягкой тканью, требуют некоторого воплощенного понимания физического мира, которого, как мы выяснили, у ИИ пока нет.
Если ИИ решит захватить мир...
...ему понадобится помощь.
Я опустила некоторые аспекты, такие как эмоциональный интеллект и теория разума, чтобы пост не вышел слишком длинным, но, полагаю, картина ясна.
Разумеется, я не говорю: «Давайте не будем беспокоиться об ИИ». Если есть что-то, что я умею делать как следует, то это беспокоиться (определенно делаю это лучше, чем стойки на голове).
Но я приглашаю вас подумать: у нас есть сильные и слабые стороны, у ИИ есть сильные и слабые стороны. Как мы можем объединить их так, чтобы получить наилучший результат?
P.S.: И еще я вас приглашаю в свой телеграм, там больше постов и очень весело.