VRで自然な対話を実現するデジタルヒューマン「SARAH」が登場
- •SARAHシステムにより、VR内のデジタルヒューマンがリアルタイムかつ空間を認識した全身の動きを実現。
- •TransformerベースのVariational autoencoderとFlow matchingを組み合わせ、300 FPSという驚異的なパフォーマンスを達成。
- •視線スコアリング機能により、ユーザーはライブ対話中のアイコンタクトの強度を自由にコントロール可能。
VR空間におけるデジタルヒューマンは、ユーザーの存在に反応しなかったり、不自然に視線が外れたりするなど、「ロボット的」な印象を与えがちである。研究者であるエヴォン・ン(Evonne Ng)氏らが手掛ける新プロジェクト「SARAH(Spatially Aware Real-time Agentic Humans)」は、音声と空間コンテキストの両方に同期した全身モーションを生成する完全な因果的(Causal)システムを導入することで、この課題を解決した。従来のモデルが単に音声に合わせてジェスチャーを同期させていたのに対し、SARAHはエージェントがユーザーの方を向き、3D空間内での動きにダイナミックに反応することを可能にしている。
技術的な中核を成すのは、因果的なTransformerベースのVariational autoencoderと、Flow matchingモデルの洗練された組み合わせだ。AIが過去と現在のデータのみに基づいて判断を下す「因果的」な処理を採用したことで、システムは秒間300フレーム(FPS)という圧倒的な処理速度を達成した。この高速性は、わずかな遅延が没入感を損なったりVR酔いを引き起こしたりするVRヘッドセットでのストリーミングにおいて、極めて重要な要素となる。その結果、高いモーション品質を維持しながら、従来の非因果的なベースラインよりも3倍速い効率性を実現した。
特に画期的なのは、Classifier-free guidanceを用いた視線スコアリングメカニズムの導入である。これにより開発者は、モデル全体を再学習させることなく、エージェントが維持するアイコンタクトの頻度や強度を自由に調整できるようになった。キャラクターの性格が内気であっても外交的であっても、AIはデータから得られる自然な空間配置を捉えつつ、実機でのリアルタイム展開において社会的なダイナミクスを精密に制御することを可能にしている。