AIが手と頭の動きで操作可能な仮想世界を生成
2026年2月23日 (月)
- •頭部や手足の関節の動きに連動して仮想環境を生成する、新しい人間中心のビデオモデルが登場した。
- •双方向拡散モデルを因果モデルに蒸留し、自己中心視点でのリアルタイムなインタラクティブ・シミュレーションを実現した。
- •従来のキーボード入力式と比較して、ユーザーの操作感とタスク遂行能力が大幅に向上したことが確認された。
研究チームは、AIがシミュレートする環境との対話方法を劇的に進化させる「Generated Reality(生成された現実)」を発表した。従来の動画生成モデルはテキスト指示や単純なキーボード操作に依存していたが、このシステムは身体の動きとデジタル空間の生成を直接結びつけるものである。特に、精密な3D頭部・手部トラッキングをビデオ拡散モデルの条件として組み込むことで、現実世界の動きに即座に反応する一人称視点のシーン描写を可能にした。
技術的なブレイクスルーは、複雑な「教師」モデルから応答性の高いインタラクティブ・システムへの移行にある。まず、過去と未来のフレームから空間的な文脈を理解する「双方向ビデオ拡散モデル」を学習させ、その知見をリアルタイム生成に適した「因果モデル」へと蒸留した。これにより、ユーザーの動きに合わせて即座にフレームが描画され、従来の生成ビデオでは極めて困難だった、手とオブジェクトの複雑な相互作用もスムーズに表現できるようになった。
コンピューティングとイメージングの研究者であるゴードン・ウェッツスタイン(Gordon Wetzstein)氏らによる実験では、被験者はこれまでにない高い主体性とコントロール感を報告している。AIが一方的に展開を予測するのではなく、ユーザーの意図に忠実に関係性が変化するため、合成された空間内での緻密な作業も可能だ。これは、開発者が事前に作り込むのではなく、AIがその場で環境を構築する「次世代XR(拡張現実)」への重要な一歩となるだろう。