DeepMind、1.9万フレームの3D動画再構成に成功
- •LoGeRは、事後最適化を行うことなく19,000フレームを超えるビデオシーケンスの整合性ある3D再構成を可能にした。
- •テスト時トレーニング(TTT)とスライディングウィンドウアテンションを組み合わせたハイブリッドメモリ構造により、広域と局所の整合性を両立している。
- •KITTIベンチマークにおいて、絶対軌跡誤差を従来の手法と比較して74%削減することに成功した。
ビデオ映像から3Dシーンを再構成する試みは、長年「ドリフト」という課題に悩まされてきた。これは時間の経過とともに微細な誤差が蓄積し、デジタルマップが歪んで精度を失う現象である。Google DeepMindとカリフォルニア大学バークレー校の研究チームは、数千フレームにわたって完璧な位置合わせを維持する幾何学的基盤モデル「LoGeR」を開発した。処理後にエラーを修正するための時間のかかる手動最適化を必要とする従来の手法とは異なり、LoGeRは完全なフィードフォワード方式で動作し、安定したグローバルな視点を維持しながらビデオチャンクを効率的に処理する。
この突破口の鍵は、独自の「ハイブリッドメモリ」システムにある。グローバルな座標系を固定するためにテスト時トレーニング(TTT)と呼ばれるパラメトリックメモリコンポーネントを使用し、長距離走行でもカメラの経路がスケールや方向を見失わないように設計されている。同時に、スライディングウィンドウアテンションを採用することで、隣接するフレーム間の微細なディテールを処理する。この組み合わせにより、高精度な位置合わせに必要な即時的な視覚的手掛かりに集中しながら、1キロメートルに及ぶ走行ルート全体の構造を「記憶」することが可能になった。
特筆すべきは、LoGeRが異なるスケールに対して驚異的な汎用性を示している点である。わずか128フレームの短いシーケンスで学習されているにもかかわらず、実際の運用ではその約150倍の長さに相当するビデオを正常に再構成できる。標準的なベンチマークで軌跡誤差を74%削減したこの成果は、信頼性の高い自律走行や大規模なデジタルツイン作成への道を開くものであり、幾何学AIが現実世界の長距離走行という難題を克服できることを証明した。