WildWorld:行動条件付き世界モデルの進化
- •『モンスターハンターワイルズ』の映像1億800万フレームを活用し、行動条件付きの世界モデル構築を支援する。
- •450種類以上の独自アクションに加え、骨格データや深度マップなどの詳細な状態アノテーションを統合。
- •長時間のビデオ生成における一貫性と、行動に応じた状態の整合性を評価する「WildBench」を導入した。
Shanda AIの研究チームは、単純な映像生成から複雑な世界モデリング(World Modeling)への飛躍を目指した大規模データセット「WildWorld」を発表した。これはAAAタイトルである『モンスターハンターワイルズ』の高精細なプレイ映像を活用しており、剣を振る、回避するといった特定の行動が環境やキャラクターの状態にどのような影響を与えるかをAIが学習できるサンドボックスを提供する。従来のピクセルデータのみに依存するデータセットとは異なり、WildWorldにはキャラクターの骨格情報やカメラのポーズといった詳細なメタデータが含まれているのが大きな特徴だ。
このような「状態」を意識したアプローチは、現在の生成AIが直面している大きな課題、すなわち長期的な一貫性(Long-horizon consistency)の維持に直接応えるものである。既存のビデオ生成モデルの多くは、世界の根底にある物理的なルールを理解していないため、時間の経過とともに映像が支離滅裂になる「ドリフト」現象に陥りやすい。そこで、単なる視覚的な変化ではなく明示的な状態遷移を学習させることで、長尺のシークエンスでも論理的な流れを維持することが可能になる。これは、プレイヤーの入力に世界が動的に反応する「生成型アクションRPG(ARPG)」の実現に向けた重要な一歩と言えるだろう。
また、今回のリリースには、複雑なアクションプロンプトにモデルがどれだけ忠実に従えるかをテストするためのベンチマーク「WildBench」も含まれている。初期の評価結果によると、最新の高度なモデルであっても、意味的に豊かなアクションの正確な再現には依然として苦戦しており、今後の研究における重要なフロンティアであることが浮き彫りになった。このデータセットは、AIを単なる映像の模倣者から、自身が介在するデジタル世界の物理法則や論理を真に理解するシステムへと進化させるための、構造化された基盤となるはずだ。