Лицо как интерфейс. FACS-коды для управления ИИ-мимикой

Один из самых недооценённых интерфейсов в генерации AI-видео - человеческая мимика. Большинство моделей до сих пор создают эмоции как шаблонный набор состояний: улыбка, грусть, злость.

Однако в реальной коммуникации лицо почти никогда не работает такими категориями. Человек считывает микродвижения: напряжение век, асимметрию губ, задержку мышечных реакций, несоответствие между взглядом и улыбкой.

В тесте на видео для Seedance 2.0 использовались только FACS-коды без текстового описания эмоций. FACS (Facial Action Coding System) — научная система описания мимики, созданная психологами Полом Экманом и Уоллесом Фризеном.

Пол Экман консультировал создателей сериала Обмани меня. Это детективно-психологический сериал о специалисте по распознаванию лжи докторе Кэле Лайтмане, которого сыграл Тим Рот. Сериал не новый, но классный. А если интересны шпаргалки по facs, напишите, скину. Моим любимым психопатам, нарциссам и макиавеллистам это должно быть особенно интересно.

Так вот, FACS описывает выражения лица не через эмоции, а через движение отдельных мышц лица, так называемых Action Units.

Например:

▪AU12 — поднятие уголков губ;

▪AU4 — нахмуренные брови;

▪AU5 — широко раскрытые глаза;

▪AU15 — опущенные уголки губ.

Лицо как интерфейс. FACS-коды для управления ИИ-мимикой

FACS давно используют в психологии, анимации, кино, захвате мимики и системах распознавания эмоций. А теперь это постепенно становится инструментом управления ИИ-персонажами.

По сути, это уже не генерация эмоции, а управление лицевой кинематикой. И это очень важный сдвиг для продуктового и интерфейсного дизайна ИИ-систем.

Потому что реалистичный цифровой персонаж -это не только визуальная оболочка. Это прежде всего точность невербального поведения. Пользователь мгновенно замечает фальшь в мимике, даже если не способен формализовать причину. На уровне восприятия такие ошибки вызывают ощущение искусственности, тревоги или эффекта зловещей долины. И проблема, как мы видим, заключается не в детализации кожи или качестве рендера, а в несоответствии микромимики человеческому восприятию.

Интересно, что Seedance 2.0 воспроизвёл не все Action Units идеально, но большая часть движений оказалась максимально близка к FACS-референсам. Даже жутковато в моменте.

Начинается новая эпоха ИИ-видео, где главная метрика реализма не пиксели, а качество того, как персонаж врёт, и насколько убедительно он делает вид, что это не так.

Кому интересно глубже, промпт для теста выглядел так:

Use the provided character @[image1] as the fixed identity reference. 15s, 1:1, 14 beats, beat-synced, cinematic tight close-up, subtle neutral background, high facial clarity, slow micro push-in, shallow depth of field. 1: AU10 2: AU20 3: AU22 4: AU23 5: AU27 6: AU28 7: AU45 8: AU53 9: AU61 10: AU62 11: AU64 12: AU85 13: AU84 14: AU46 Uneasy, hypnotic, controlled mood. No monster transformation, no gore, no comedy, no text overlay, no watermark.

На практике это открывает новый уровень развития и контроля над ИИ-интерфейсами и цифровыми персонажами:

▪управляемая актёрская мимика;

▪ сложные смешанные эмоции, типа ехидная улыбка;

▪ микроэмоции;

▪ тонкая мимическая игра в крупных планах; ▪ более естественное восприятие ИИ-персонажей человеком.

И если раньше мы спорили, достаточно ли у персонажа реалистичная кожа, то теперь будем спорить, насколько естественно он не моргнул в момент, когда уверенно врал, что бегал, хотя дыхание ровное, а футболка сухая и совсем не пахнет.

1
Начать дискуссию