スタンフォード大、世界モデルを構築するVLMエージェントを訓練
- •VAGENフレームワークは、強化学習を通じて30億パラメータのVLMに内部的な「世界モデル」を構築させる。
- •ロボット操作やナビゲーション等の複雑なタスクで、GPT-5やClaude 4.5を凌駕する性能を記録した。
- •革新的な報酬システムと階層的な報酬割り当てにより、エージェントの多段階の推論能力が大幅に向上した。
スタンフォード大学(Stanford University)のAIラボの研究チームは、視覚言語モデル(VLM)が抱える長年の課題、すなわち視界が限られた環境下での文脈維持能力の不足を解消するため、新たな強化学習フレームワーク「VAGEN」を発表した。従来のモデルが個別の画像を断片的に処理するのに対し、VAGENで訓練されたエージェントは、内部的な「世界モデル」を自ら構築するように学習される。これには、現在の状態を推定する「グラウンディング」と、自身の行動が状態をどう変化させるかを予測する「遷移モデリング」という2つの思考プロセスが含まれる。行動の前に体系的な思考を促すことで、静的な画像理解と動的なインタラクションの間のギャップを埋めることに成功したのである。
この学習プロセスを最適化するため、研究チームは「WorldModeling Reward」と呼ばれる革新的な報酬システムを導入した。複雑なタスクにおいては最終的な成功報酬を得ることが難しいため、LLMを判定役(LLM-as-judge)として活用し、各ステップにおけるエージェントの内部状態予測の正確さに対してフィードバックを与える仕組みだ。この濃密なフィードバックは、階層的な報酬割り当て手法である「Bi-Level GAE」と組み合わされる。これにより、長い一連のやり取りの中でどの推論ステップが成功に寄与したかを正確に特定でき、長期的なインタラクションにおける評価の難しさを解決した。
その結果、驚くべきことに、わずか30億パラメータのVAGENモデルが、5つの多様なベンチマークにおいてGPT-5やGemini 2.5 Proといった巨大な商用モデルを大幅に上回った。タスクは3Dナビゲーションから複雑なロボット操作、コードによる画像再構成まで多岐にわたる。この成果は、エージェントの性能を左右するのは単なるモデルの規模ではなく、構造化された世界モデリングと特化した強化学習の組み合わせであることを明確に示唆している。