AIが3D空間をリアルタイムに把握、「Spatial-TTT」登場
2026年3月13日 (金)
- •Spatial-TTTはテスト時トレーニング(TTT)を活用し、連続ビデオから3D環境をマッピングする
- •高速な重み更新を備えたハイブリッド構造により、長いシーケンスでも空間メモリを維持できる
- •幾何学的な対応関係と時間的な連続性の把握において、世界最高水準の性能を達成した
Spatial-TTTは、AIが視覚データを通じて物理世界を認識・整理する手法に革命をもたらした。従来のモデルは、カメラの移動に伴う3D空間の理解と記憶の更新が難しく、長尺のビデオシーケンスでは精度が低下しがちだった。そこで本手法はテスト時トレーニング(TTT)を導入し、モデルの内部パラメータを即座に適応させる「高速な重み(fast weights)」を生成することで、際限のないビデオストリームから空間情報を正確に抽出することに成功した。
そのアーキテクチャは、大規模なチャンク更新とスライディングウィンドウ・アテンションを組み合わせた高度なハイブリッド形式だ。この設計により、システムは効率的なビデオ処理と、環境に対する一貫したメンタルマップの維持を両立させている。特に、新たに追加された空間予測メカニズムは、人間が奥行きや体積を感じ取るのと同様に、物体間の幾何学的な相関や時間的な連続性をモデルに認識させる重要な役割を果たしている。
また、研究チームは数式やコードの改良に留まらず、詳細な3D空間の記述を含む独自のデータセットを構築した。このデータは、単に平面的な画像の連続として捉えるのではなく、空間全体の信号を構造化して記憶する方法をモデルに学習させる。その結果として誕生した高度な空間知能は、複雑な室内レイアウトを真に理解する自律型ロボットや、次世代の拡張現実(AR)システムの基盤となる可能性を秘めている。