この記事の要点は？

KAISTが複数エージェントの一人称視点ビデオ理解を測る「MA-EgoQA」を発表した。社会的相互作用やタスク調整、時間的推論など5領域にわたる1,700以上の質問を収録している。共有メモリを活用した「EgoMAS」が、GPT-5などの最新モデルを凌駕する性能を記録した。

複数エージェントの視点理解を測る新指標

Q: この記事の要点は？

KAISTが複数エージェントの一人称視点ビデオ理解を測る「MA-EgoQA」を発表した。 社会的相互作用やタスク調整、時間的推論など5領域にわたる1,700以上の質問を収録している。 共有メモリを活用した「EgoMAS」が、GPT-5などの最新モデルを凌駕する性能を記録した。

•KAISTが複数エージェントの一人称視点ビデオ理解を測る「MA-EgoQA」を発表した。
•社会的相互作用やタスク調整、時間的推論など5領域にわたる1,700以上の質問を収録している。
•共有メモリを活用した「EgoMAS」が、GPT-5などの最新モデルを凌駕する性能を記録した。

•複数のロボットが見たバラバラの映像（一人称視点映像）を、まとめて理解する能力を測る新しいテスト（MA-EgoQA）ができました。
•相手の気持ちを予想することや、協力の仕方を考えることなど、難しい問題が1700問以上も含まれています。
•情報をみんなで共有する新しいAIの仕組み（EgoMAS）が、世界でも有名な最新AIより優れた成績を出しました。

AIが静的なデジタル環境から物理世界へと進出するにつれ、人間がロボットなどの自律型エージェントと協力して働く未来が現実味を帯びている。こうした複雑な環境を自在に動き回るには、複数のエージェントが持つ一人称視点（エゴセントリック・ビデオ）の映像ストリームを同時に処理しなければならない。しかし、現在のAIモデルは、異なる視点から得られる断片的な情報を統合し、システム全体として一貫した記憶を構築することに苦慮しているのが現状だ。

そこで、KAIST AIの研究チームは、AIが複数のビデオフィードに基づいてどれだけ正確に判断できるかを評価する「MA-EgoQA」という厳格なベンチマークを導入した。このデータセットには、他者の心理状態を理解する能力である「心の理論」やタスクの調整など、5つの重要領域にわたる1,700以上の質問が含まれている。これにより、AIは各エージェントが長期間にわたって何を目撃し、どのような行動をとったかを正確に追跡し、それらの膨大なデータを統合して複雑な問いに答える能力が求められる。

この新たな挑戦における標準を確立するため、チームは「EgoMAS」と呼ばれるモデルを開発した。このモデルは共有メモリ・アーキテクチャを採用しており、すべてのエージェントが中央の情報プールにデータを蓄積できる仕組みとなっている。さらに、質問に応じて特定のエージェントから最も関連性の高い情報を選択的に取り出す「動的検索」を用いることで、EgoMASは既存の主要モデルを大幅に上回る性能を記録した。本研究は、単一エージェントの視覚理解を超え、複数エージェントによる「集団的知能」こそがAIの次なるフロンティアであることを明確に示している。

これから先の未来では、AIは画面の中だけでなく、現実の世界でロボット（エージェント）として、チームを組んで人間と一緒に働くようになります。ロボットたちはそれぞれ自分のカメラで周りを見ますが、それらバラバラの映像を一つにまとめて「今、全体で何が起きているか」を正しく理解することは、今のAIにとって非常に難しい課題でした。

そこで、韓国のKAISTという大学の研究チームは、「MA-EgoQA」という新しいテスト（ベンチマーク）を作りました。これは、複数のロボットが見ている映像を使って、質問に正しく答えられるかを試すものです。このテストには1700問以上の問題があり、相手が何を考えているかを予想すること（心の理論）や、どうやって分担して作業を進めるか（タスク調整）といった、とても高度な判断が求められます。

この難しいテストを解くために、チームは「EgoMAS」という新しい仕組みを開発しました。これは、全員が見た情報を一つの場所に集めておく場所（共有メモリ）を作り、質問に合わせて必要な情報だけをうまく選び出す（動的検索）という方法です。その結果、EgoMASは、有名な「Gemini-2.5-Flash」や「GPT-5」といった最新のAIよりも、ずっと高い成績を出しました。これからは、1つのロボットの目だけでなく、みんなの目を合わせて考える「チームとしての知能」が重要になっていきます。

複数エージェントの視点理解を測る新指標

「チームプレーができるAI」を育てるための新しいテストが登場！

タグ