動画拡散モデルがAIに3D空間認識を付与
2026年3月20日 (金)
- •VEGA-3Dは、学習済み動画拡散モデルをマルチモーダルAIの潜在的世界シミュレータとして再利用する。
- •ノイズレベルから3D構造の事前知識を抽出し、MLLMの「空間的盲目」を解消するフレームワークを構築した。
- •3Dシーン理解とロボットの身体的操作タスクにおいて、新たなベンチマークを確立した。
現代のマルチモーダル大規模言語モデル(MLLM)は、画像を驚くほど鮮明に説明できる。しかしその一方で、観察対象の背後にある3次元的な幾何学構造や物理法則を把握できない「空間的盲目」という課題を抱えているのだ。この制限は、深度や体積の理解が不可欠なロボットのナビゲーションや、精緻な空間推論といった複雑なタスクへの応用を妨げる要因となっていた。
このギャップを埋めるべく、研究チームは動画拡散モデルを「潜在的世界シミュレータ」として扱うフレームワーク「VEGA-3D」を発表した。その核心となる着想は極めてシンプルである。AIが現実的で一貫性のある動画を生成するためには、物体が3次元空間内でどのように動き、存在するかを暗黙的に理解していなければならない。こうした隠れた物理的知識を活用することで、高コストな3Dラベル付きデータに頼ることなく、MLLMに「空間感覚」を与えることに成功した。
システムの仕組みとしては、動画生成過程の中間段階、特に構造的な詳細が立ち現れるノイズレベルから時空間特徴量を抽出する。こうして得られた幾何学的な手がかりは、適応型ゲート付き融合メカニズムを用いて言語モデルに統合される。これにより、特定のタスクに対してどの程度の空間情報が必要かをシステムが動的に判断できるようになった。
実験結果によれば、この手法は3Dシーン理解および身体的操作において、既存のベースラインを大幅に上回る性能を示した。生成モデルを「空間の教師」へと転換させるVEGA-3Dの試みは、AIが自身が生息する環境の物理的次元を真に理解するための、スケーラブルな道筋を提示している。