Лицо как интерфейс. FACS-коды для управления ИИ-мимикой
Один из самых недооценённых интерфейсов в генерации AI-видео - человеческая мимика. Большинство моделей до сих пор создают эмоции как шаблонный набор состояний: улыбка, грусть, злость.
Однако в реальной коммуникации лицо почти никогда не работает такими категориями. Человек считывает микродвижения: напряжение век, асимметрию губ, задержку мышечных реакций, несоответствие между взглядом и улыбкой.
В тесте на видео для Seedance 2.0 использовались только FACS-коды без текстового описания эмоций. FACS (Facial Action Coding System) — научная система описания мимики, созданная психологами Полом Экманом и Уоллесом Фризеном.
Пол Экман консультировал создателей сериала Обмани меня. Это детективно-психологический сериал о специалисте по распознаванию лжи докторе Кэле Лайтмане, которого сыграл Тим Рот. Сериал не новый, но классный. А если интересны шпаргалки по facs, напишите, скину. Моим любимым психопатам, нарциссам и макиавеллистам это должно быть особенно интересно.
Так вот, FACS описывает выражения лица не через эмоции, а через движение отдельных мышц лица, так называемых Action Units.
Например:
▪AU12 — поднятие уголков губ;
▪AU4 — нахмуренные брови;
▪AU5 — широко раскрытые глаза;
▪AU15 — опущенные уголки губ.
FACS давно используют в психологии, анимации, кино, захвате мимики и системах распознавания эмоций. А теперь это постепенно становится инструментом управления ИИ-персонажами.
По сути, это уже не генерация эмоции, а управление лицевой кинематикой. И это очень важный сдвиг для продуктового и интерфейсного дизайна ИИ-систем.
Потому что реалистичный цифровой персонаж -это не только визуальная оболочка. Это прежде всего точность невербального поведения. Пользователь мгновенно замечает фальшь в мимике, даже если не способен формализовать причину. На уровне восприятия такие ошибки вызывают ощущение искусственности, тревоги или эффекта зловещей долины. И проблема, как мы видим, заключается не в детализации кожи или качестве рендера, а в несоответствии микромимики человеческому восприятию.
Интересно, что Seedance 2.0 воспроизвёл не все Action Units идеально, но большая часть движений оказалась максимально близка к FACS-референсам. Даже жутковато в моменте.
Начинается новая эпоха ИИ-видео, где главная метрика реализма не пиксели, а качество того, как персонаж врёт, и насколько убедительно он делает вид, что это не так.
Кому интересно глубже, промпт для теста выглядел так:
На практике это открывает новый уровень развития и контроля над ИИ-интерфейсами и цифровыми персонажами:
▪управляемая актёрская мимика;
▪ сложные смешанные эмоции, типа ехидная улыбка;
▪ микроэмоции;
▪ тонкая мимическая игра в крупных планах; ▪ более естественное восприятие ИИ-персонажей человеком.
И если раньше мы спорили, достаточно ли у персонажа реалистичная кожа, то теперь будем спорить, насколько естественно он не моргнул в момент, когда уверенно врал, что бегал, хотя дыхание ровное, а футболка сухая и совсем не пахнет.