PixelSmile:アイデンティティを保つ精緻な表情編集
2026年3月28日 (土)
- •PixelSmileは拡散モデルを基盤とし、個人のアイデンティティを維持しながら精緻な表情制御を可能にする。
- •高精度な学習を支援するため、感情の強弱を連続的に記録した「Flex Facial Expression (FFE)」データセットが公開された。
- •モデルの構造的混乱や編集精度、線形制御性を評価するための新指標「FFE-Bench」を導入。
AIによる顔の表情編集において、従来は感情を変化させると個人の固有の顔立ちまで意図せず変わってしまう「意味の重複」が大きな課題であった。新開発の拡散モデルベースのフレームワーク「PixelSmile」は、表情のセマンティクスをデタングル(分離)することでこの問題を解決。笑顔や顔をしかめるといった特定の筋肉の動きを、個人のアイデンティティから効果的に切り離すことに成功した。
システムには「対称的共同学習」と「コントラスティブ学習」が採用されている。これは、似て非なる特徴を互いに比較させることで、AIが微細な差異を識別できるようにする手法である。これにより、薄笑いの微妙な強弱の調整や、複数の感情をブレンドするといった高度な編集が可能になった。また、モデル内部の数学的表現を操作する「Latent Interpolation」技術により、ユーザーは単純なテキスト指示を通じて、滑らかで線形的なコントロールを行える。
この進歩を裏付けるため、復旦大学の研究チームは「Flex Facial Expression (FFE)」データセットを導入した。これは従来の二値的なカテゴリ分けではなく、感情の強弱を連続的なラベルで提供するものだ。あわせて、表現の正確性とアイデンティティ保持のバランスを測定する包括的なベンチマーク「FFE-Bench」も公開された。この研究成果は、デジタルメディアやバーチャル空間における、より自然で本物に近い人間とAIの対話の実現を後押しするだろう。