Здравый смысл для беспилотных авто. Реальность или утопия?

Беспилотные автомобили уже давно не новость. Однако, в сети регулярно появляются ролики с их неадекватным поведением. Словно за рулем находится человек под воздействием алкоголя. Несмотря на всю мощь нейросетей, машина пока не может сравниться с человеком, потому что у нее отсутствует важные элементы, которые мы называем интуицией и здравым смыслом.

Повседневные ситуации, которые кажутся любому водителю обыденными, все еще представляют значительные проблемы для беспилотных автомобилей. Причина в том, что они разработаны с использованием инженерных методик, которые принципиально отличаются от того, как работает человеческий разум.

Инженерный подход, в основном базируется на формуле «чувство-мышление-действие». Т.е. сначала датчики считывают информацию, потом она обрабатывается DNN, затем прогнозируется траектория движения, и лишь после этого автомобиль двигается дальше.

Однако водитель руководствуется, как минимум еще двумя факторами: интуицией и здравым смыслом.

Вправить машине мозги

Вот с внедрением этих способностей в нейросети пока дела обстоят не очень. Одна из главных причина в том, что человечество до сих пор не до конца понимает, как функционирует мозг. Да, марсоходы уже бороздят поверхность ближайшей планеты; изучаем галактики удаленные на тысячи световых лет; развиваем нанотехнологии, но с собственными мозгами разобраться пока не можем.

Интересно, что в понимании природы мозгового функционирования, нам могут помочь именно нейросети, а если конкретней - Большие языковые модели (LLM) — технологии, лежащие в основе чат-ботов, таких как ChatGPT.

Одна из основных теорий предполагает , что «чувство» и «действие» — это не последовательные, а тесно взаимосвязанные процессы. Люди воспринимают окружающую среду с точки зрения своей способности воздействовать на нее.

Например, готовясь повернуть направо на перекрестке, водитель фокусируется на определенных частях окружающей среды и препятствиях, имеющих отношение к повороту. А инженерный подход «чувство-мышление-действие» обрабатывает предполагаемый алгоритм действий независимо от текущих обстоятельств.

Другое критическое отличие нейросети от мозга людского, заключается в том, что DNN в первую очередь полагаются на данные, на которых они были обучены. При незначительном с точки зрения человека, но необычного изменения сценария для машины, они могут упустить важную информацию.

Благодаря общему знанию мира, который каждый из нас познает с пеленок, мы способны оценивать новые, непредвиденные ситуации, используя тот самый здравый смысл. А что такое здравый смысл? -

это сочетание практических знаний, рассуждений и интуитивного понимания обычного поведения людей, сформированного на основе жизненного опыта.

Вождение автомобиля человеком - всего лишь одна из форм социального взаимодействия, в которой здравый смысл - основной ключ к пониманию поведения других участников движения или появлению сторонних факторов и следовательно к мгновенному принятию правильного решения.

Такое с нами случается фактически каждый день, просто мы не обращаем на это внимание, все происходит “само-собой”, а вот машина, пусть даже в нее загрузят всю информацию с начала истории вождения, такими способностями не обладает!

Калька здравого смысла

Над воспроизведением “здравого смысла” ученые работают, как минимум, последнее десятилетие, но к приемлемым результатам прийти не смогли. Теперь же, с успешным развитием технологий LLM, предлагается кардинально изменить подход к этому процессу.

ChatGPT продемонстрировали впечатляющие результаты в понимании и создании человеческого языка. Их способности обусловлены обучением на огромных объемах информации в различных областях, что позволило им развить форму здравого смысла, в чем-то похожую на человеческую.

Совсем недавно GPT-4 объединили язык со зрением, интегрировав обширные знания о мире со способностью рассуждать о визуальных входных данных.

Эти модели способны понимать сложные невидимые сценарии, давать объяснения на естественном языке и рекомендовать соответствующие действия, предлагая оптимальные решения.

Если простыми словами, то видя нестандартную ситуацию, сектор отвечающий за принятие решения конкретизирует ее “центру управления” например: На капот упала большая птица, или встречный водитель “моргнул” фарами. Таких сценариев может и не быть в памяти беспилотной машины. И вот тут включается тот самый “здравый смысл”, обладающий куда большей информацией для анализа нежели беспилотное авто смоделированное по формуле «чувство-мышление-действие».

Сейчас, некоторые разработчики начали использовать другую формулу при обучении вождению беспилотных авто - «зрение-язык-действие» (VLAM) , объединяющие лингвистическую и визуальную обработку с действиями. Некоторые системы демонстрируют неплохие результаты в управлении роботизированными руками с помощью языковых инструкций.

С надеждой на будущее

Но пока рано радоваться, потому как оценка их надежности и безопасности нового подхода сложнее, чем для модульных систем «чувство-мышление-действие». Каждый компонент автономного транспортного средства, включая интегрированные LLM, должен быть проверен, что требует новых методик тестирования, адаптированных к этим системам.

Кроме того, запуск LLM требует значительной вычислительной мощности и памяти, иначе информация может приходить с задержкой, а то и вовсе зависать. Куда засунуть все это железо в автомобиле тоже нетривиальный вопрос.

Конечно, отрасль “чипостроения” развивается стремительными темпами. Но их не хватает даже даже для существующих моделей умных электромобилей (помните недавний кризис с чипами?), а еще есть военная, бытовая отрасли, геймеры, майенры и.т.д. да уже вряд ли сегодня можно найти сферу где не применяются чипы. Так что для авто, управляемых VLAM на сегодняшний день их просто не хватит. Но хватит для проведения испытаний. Чем и занимаются некоторые компании.

Сейчас разработчики сосредоточены на оптимизации LLM для использования в транспортных средствах. Сложно сказать, сколько лет понадобится разработчикам, для полноценного внедрения здравого смысла в “мозги” автомобиля.

Но можно с уверенностью сказать, что у нас появилась надежная альтернатива парадигме «чувство-мышление-действие» возможности которой кажется достигли своего потолка.

11
Начать дискуссию