複数エージェントの視点理解を測る新指標
2026年3月12日 (木)
- •KAISTが複数エージェントの一人称視点ビデオ理解を測る「MA-EgoQA」を発表した。
- •社会的相互作用やタスク調整、時間的推論など5領域にわたる1,700以上の質問を収録している。
- •共有メモリを活用した「EgoMAS」が、GPT-5などの最新モデルを凌駕する性能を記録した。
AIが静的なデジタル環境から物理世界へと進出するにつれ、人間がロボットなどの自律型エージェントと協力して働く未来が現実味を帯びている。こうした複雑な環境を自在に動き回るには、複数のエージェントが持つ一人称視点(エゴセントリック・ビデオ)の映像ストリームを同時に処理しなければならない。しかし、現在のAIモデルは、異なる視点から得られる断片的な情報を統合し、システム全体として一貫した記憶を構築することに苦慮しているのが現状だ。
そこで、KAIST AIの研究チームは、AIが複数のビデオフィードに基づいてどれだけ正確に判断できるかを評価する「MA-EgoQA」という厳格なベンチマークを導入した。このデータセットには、他者の心理状態を理解する能力である「心の理論」やタスクの調整など、5つの重要領域にわたる1,700以上の質問が含まれている。これにより、AIは各エージェントが長期間にわたって何を目撃し、どのような行動をとったかを正確に追跡し、それらの膨大なデータを統合して複雑な問いに答える能力が求められる。
この新たな挑戦における標準を確立するため、チームは「EgoMAS」と呼ばれるモデルを開発した。このモデルは共有メモリ・アーキテクチャを採用しており、すべてのエージェントが中央の情報プールにデータを蓄積できる仕組みとなっている。さらに、質問に応じて特定のエージェントから最も関連性の高い情報を選択的に取り出す「動的検索」を用いることで、EgoMASは既存の主要モデルを大幅に上回る性能を記録した。本研究は、単一エージェントの視覚理解を超え、複数エージェントによる「集団的知能」こそがAIの次なるフロンティアであることを明確に示している。