Google DeepMind、世界を4次元で視るAI「D4RT」を発表
2026年1月25日 (日)
- •Google DeepMindが、2D映像からリアルタイムで4D再構成と点追跡を行う「D4RT」を公開した。
- •クエリベースの新しいトランスフォーマー構造により、従来手法と比べて最大300倍の高速化を実現している。
- •深度推定とカメラのポーズ復元を同時に実行でき、ロボティクスや空間計算に不可欠な基盤を提供する。
Google DeepMindが発表した「D4RT(Dynamic 4D Reconstruction and Tracking)」は、3次元空間と時間の流れを統合し、世界を4次元で認識する画期的なAIモデルだ。従来のコンピュータビジョンは、平面的な2D映像を動きのある一貫した3D環境へ変換することに苦戦してきた。D4RTは、空間内のピクセル軌道を正確に追跡することで、この複雑な「逆問題」を解決したのである。 アーキテクチャの核となるのは、柔軟なクエリ・メカニズムを採用した、統合型のエンコーダ・デコーダ・トランスフォーマーだ。異なるタスクごとに専門モジュールを組み合わせる従来手法とは異なり、D4RTは「特定のピクセルは、任意の時間に3D空間のどこに位置するか」という根本的な問いを投じる。これらのクエリは独立して並列処理されるため、精度を損なうことなく、かつてない効率性を手に入れた。 厳格なベンチマーク評価において、D4RTは既存システムの18倍から300倍という驚異的な処理速度を実証した。1分間の映像を、単一のチップ上でわずか5秒ほどで処理できる計算だ。カメラの動きと物体の動きを鮮やかに切り分けるこのモデルは、空間計算やロボティクスの強固な基盤となるだろう。物理世界の「世界モデル」構築に一歩近づいたこの成果は、汎用人工知能(AGI)への道のりにおける重要な節目と言える。