画面外の物体も追跡する新モデルが登場
2026年3月30日 (月)
- •動画モデルにおいて、一時的に隠れた物体の整合性を維持する「Hybrid Memory」が導入された。
- •HyDRAアーキテクチャは、トークン化メモリと時空間レトリーバルを活用してフレーム外への出入りを追跡する。
- •約6万件の動画を含むHM-Worldデータセットが公開され、物体の長期的な一貫性の評価が可能になった。
ビデオワールドモデルは物理的な現実をシミュレートするよう設計されているが、物体永続性という基本的な概念の扱いに苦慮することが多い。人や車両がカメラの外に移動して再び戻ってくるとき、現在のモデルの多くはそれらを記憶できず、被写体が消滅したり、全く別の実体として再登場したりする「ゴースト現象」が発生してしまう。
これを解決するため、研究チームは「Hybrid Memory」パラダイムを開発した。この手法は、AIが静止した背景を記録するアーカイブ担当と、動く被写体を監視する追跡担当の二役をこなす二系統システムのように機能する。環境の記憶と動きの追跡を分離することで、被写体が「見えない場所」にいる間も、その正体と軌道を維持できるようになった。
この技術革新の中核を担うのがHyDRAアーキテクチャだ。視覚情報をコンパクトなデータ単位(トークン化メモリ)に圧縮し、時間と空間の関連性に基づき動きのヒントを呼び出す仕組み(時空間レトリーバル)を採用している。これにより、物体が消える直前の外見や位置を正確に「思い出す」ことが可能となった。
また、チームは「フレーム外への退出と再進入」のテストに特化した約6万件のクリップを含む大規模データセット「HM-World」も公開した。このリソースにより、カメラの動きと被写体の経路が切り離された複雑なシーンでの性能を厳密に評価できるようになり、動画生成AIはより真実味のある物理的リアリズムへと一歩近づいたと言える。