MosaicMem:動画の一貫性とナビゲーションを革新
2026年3月19日 (木)
- •MosaicMemは、3D空間パッチと潜在的なフレーム表現を融合させたハイブリッドメモリを導入した。
- •複雑なカメラワークや長時間のナビゲーションにおいても、視覚的な一貫性を高精度に維持する。
- •モデルの再学習を必要とせず、高度なシーン編集や分単位の長い動画生成を可能にする。
従来の動画生成AI(拡散モデル)は、カメラが大きく移動したり元の場所に戻ったりする際に、背景や物体が不自然に変化してしまうという課題を抱えていた。これは、映像に視覚的な「グリッチ」を引き起こす原因となる。既存の手法では、硬直的で動体に弱い明示的な3D構造か、あるいはカメラの軌道を正確に再現できない潜在的なメモリのどちらかを選択せざるを得ず、安定性と柔軟性の両立が困難であった。
そこで登場したMosaicMem(モザイク・メモリ)は、画像の断片(パッチ)を3D座標系へと配置するハイブリッド空間メモリを採用している。この手法により、カメラの視点に基づいて視覚情報を正確に配置・取得することが可能となった。背景などの静的な構造を安定させつつ、移動する物体や新しい要素を自然に補完(インペインティング)することで、長時間にわたって一貫性のある映像世界を構築することに成功している。
さらに、このシステムは高度なアライメント技術を用いており、コストのかかる追加学習を介さずに3DジオメトリとAIの生成プロセスを統合している。その結果、仮想空間内を分単位で自由に移動するナビゲーションや、複雑なシーン編集といった操作が実現した。単なる断片的なクリップの連続ではなく、一貫したシミュレータとして機能する世界モデルの実現は、より没入感のあるAI生成環境への道を開くものである。