EVA、強化学習で動画理解の効率と精度を向上
- •EVAフレームワークは、「知覚前の計画」という推論プロセスを用いることで、動画理解の性能を12%向上させた。
- •教師あり微調整に加え、KTOやGRPOといった高度な強化学習を組み合わせた3段階の学習パイプラインを採用している。
- •効率的な「要約・計画・実行・省察」のループにより、エージェントが動画内の重要なフレームを自律的に選択して処理する。
動画理解は、マルチモーダルモデルにおいて長年のボトルネックとなっていた。長いクリップの全フレームを処理することは計算コストが極めて高く、その多くが冗長であるからだ。既存のシステムの多くは、情報を探すための戦略的なアプローチを持たず、データをただスキャンするだけの受動的な観察者に留まっているのが現状である。
新たに登場したEVA(Efficient Video Agent)フレームワークは、「知覚する前に計画を立てる」という思考法を導入することで、この課題を解決する。エージェントは動画全体を盲目的に視聴するのではなく、要約、計画、実行、省察の反復サイクルを通じて、どの瞬間を注視すべきかを正確に判断する。このアプローチは、人間が特定のシーンを探すために長い映画をスキミングする動作を模倣しており、モデルが一度に処理すべき視覚情報の総量である「ビジュアル予算」を劇的に削減することに成功した。
この複雑な挙動を実現するため、研究チームは3段階の学習パイプラインを構築した。まず、基本的な模倣を学習させるための教師あり微調整から始まり、続いてKahneman-Tversky Optimization(KTO)やGeneralized Reward Policy Optimization(GRPO)といった高度な強化学習技術を適用している。これらの手法を用いることで、単純なパターンマッチングを超えた、実質的な戦略的推論能力をモデルに付与した。
実際に6つの主要なベンチマークでテストを行った結果、EVAは標準的なモデルの性能を最大12%上回った。何を、いつ、どのように視聴するかをシステムが自律的に決定することで、コンピュータビジョンの世界においては、網羅的であることよりも選択的であることの方がしばしば効果的であることを証明したのである。