PixelSmile, 미세한 표정 조절과 인물 정체성 보존 동시 실현
- •PixelSmile 확산 프레임워크는 인물의 정체성을 유지하면서도 정밀하고 세밀한 표정 제어를 지원한다.
- •고충실도 학습을 위해 연속적인 감정 주석을 포함한 Flex Facial Expression 데이터셋이 공개됐다.
- •새로운 FFE-Bench는 구조적 혼동, 편집 정확도 및 선형 제어 가능성을 바탕으로 모델을 평가한다.
인공지능을 활용한 얼굴 표정 편집은 그동안 시맨틱 중첩(Semantic Overlap) 문제로 인해 구현에 한계가 있었다. 특정 감정을 표현하려고 할 때 인물 고유의 얼굴 구조까지 의도치 않게 변하는 현상이 발생했기 때문이다. 새로운 확산 기반 프레임워크인 PixelSmile은 표정의 의미론적 요소를 분리하여 이 문제를 해결한다. 구체적으로는 미소나 찌푸림 같은 안면 근육의 움직임을 개인의 고유한 정체성으로부터 효과적으로 독립시킨다.
이 시스템은 대칭 공동 훈련과 대조 학습 기법을 활용한다. 대조 학습은 AI가 서로 유사하지만 미세하게 다른 특징들을 비교하며 구별하는 능력을 학습하는 방식이다. 이를 통해 사용자는 비웃음의 미묘한 강도를 조절하거나 여러 감정을 조화롭게 섞는 등 고도로 구체적인 편집을 수행할 수 있게 되었다. 특히 텍스트 잠재 보간 기술은 모델 내부의 수학적 표현을 탐색하여, 간단한 텍스트 프롬프트만으로도 부드럽고 선형적인 제어를 가능하게 한다.
연구진은 이러한 기술적 진보를 지원하고자 Flex Facial Expression(FFE) 데이터셋을 함께 도입했다. 이 데이터셋은 감정을 단순히 이분법적으로 분류하지 않고, 감정 강도의 변화를 나타내는 연속적인 라벨을 제공하는 것이 특징이다. 또한 표정의 정확도와 정체성 보존 사이의 정교한 균형을 측정하는 종합 벤치마크인 FFE-Bench도 공개되었다. 푸단대학교 연구진이 주도한 이 연구는 디지털 미디어와 가상 원격 현존 분야에서 더욱 정교하고 실감 나는 인간-AI 상호작용의 시대를 열 것으로 기대된다.