Как Infant Framework научил машину взаимодействовать с человеком
Большинство современных роботов превосходно справляются со сбором и анализом данных об окружающей обстановке. Они используют передовые алгоритмы компьютерного зрения для интерпретации изображений и других сенсорных данных, что позволяет им эффективно формировать план дальнейших действий и перемещений.
В то время как нейросети и алгоритмы компьютерного зрения научили машины отлично ориентироваться в пространстве, собирать данные и даже водить автомобиль, они все еще катастрофически проваливали самое простое: физический контакт, адекватное социальное поведение и поддержание комфортного диалога с человеком. Они не умели правильно взяться за чашку или понять, когда пора прекратить болтать.
Где же прорыв?
Исследователи из Университета Тунцзи в Китае предложили гениально простое и при этом фундаментальное решение- Infant framework или «младенческая рамка». Они решили, что, поскольку у нас нет готовой инструкции по идеальному социальному взаимодействию, робот должен учиться ему так же, как и человек - через ранний опыт общения с «опекуном».
Как работает «детская» логика в роботе: в основе фреймворка лежит система эмоциональной и поведенческой обратной связи. Это не значит, что робот испытывает чувства, но он способен демонстрировать «выразительные сигналы» - своего рода «эмоциональные cues», которые человек инстинктивно считывает:
- Регулирование интенсивности: если младенец выглядит довольным, опекун продолжает общение в том же темпе. Если младенец отворачивается или выглядит перегруженным, опекун меняет или ослабляет взаимодействие. Infant framework использует этот же принцип: робот демонстрирует сигналы- если человек видит, что роботу «скучно» или он «устал» (то есть его сенсоры получают неоптимальные данные), человек автоматически меняет свое поведение.
- Цель - комфорт: Робот запрограммирован так, чтобы его внутреннее «мотивационное состояние» находилось в пределах нормы, когда взаимодействие максимально приятно и эффективно для человека. По сути, робот учится выбирать такое поведение, которое максимизирует удовольствие и вовлеченность его партнера-человека, используя невербальные сигналы (например, куда человек смотрит и как далеко он стоит).
- Единая архитектура: Внутри фреймворк объединяет несколько сложнейших систем: восприятие, внимание, внутренние мотивы (drives), эмоции и выбор поведенческих актов. Это позволяет роботу не просто реагировать на команду, а формировать автономный и социально-адаптивный ответ.
Итог - мы получаем не просто машину, а социального агента, который может поддерживать персонализированное и естественное взаимодействие, делая роботов неотличимыми от живых собеседников с точки зрения социального комфорта. Это - важнейший шаг к внедрению роботов-помощников в наш быт и рабочие процессы.