KAIST, 다중 에이전트 1인칭 시점 영상 이해 벤치마크 공개
- •KAIST가 여러 명의 구체화된 에이전트를 대상으로 병렬적 Egocentric Video를 이해하는 MA-EgoQA 벤치마크를 도입했다.
- •해당 벤치마크는 사회적 상호작용, 과업 조정, 시간적 추론 등 5가지 범주를 아우르는 1,700개의 질문으로 구성되어 있다.
- •공유 메모리와 Dynamic Retrieval을 활용한 EgoMAS 베이스라인 모델이 Gemini-2.5-Flash와 GPT-5의 성능을 앞질렀다.
AI가 정적인 디지털 환경을 넘어 물리 세계로 확장됨에 따라, 실시간으로 지각하고 행동하는 로봇인 구체화된 에이전트와 인간이 협력하는 미래가 다가오고 있다. 이러한 복잡한 환경을 안정적으로 탐색하기 위해서는 시스템이 여러 개의 1인칭 시점인 Egocentric Video를 동시에 처리해야만 한다. 하지만 현재의 모델들은 서로 다른 시점에서 얻은 개별 정보를 하나의 통합된 시스템 메모리로 취합하여 이해하는 데 큰 어려움을 겪고 있다.
KAIST AI 연구진은 서로 다른 에이전트의 영상 피드를 기반으로 AI의 추론 능력을 평가하는 엄격한 벤치마크인 MA-EgoQA를 공개하며 이러한 기술적 공백을 메웠다. 이 데이터셋은 타인의 심리 상태를 파악하는 능력인 Theory-of-Mind와 과업 조정을 포함한 5가지 핵심 영역의 질문 1,700여 개를 포함한다. 이를 해결하려면 AI가 각 에이전트가 장시간 동안 무엇을 보고 행하는지 정확히 추적하고, 해당 데이터를 종합하여 복잡한 질의를 해결하는 고도의 지능이 필요하다.
연구팀은 새로운 과제의 기준을 세우기 위해 EgoMAS라는 모델을 함께 개발했다. 이 모델은 모든 에이전트가 중앙 정보 풀에 기여할 수 있는 공유 메모리 아키텍처를 기반으로 작동한다. 특히 질문에 따라 특정 에이전트로부터 가장 관련성 높은 데이터를 선택적으로 추출하는 Dynamic Retrieval 방식을 도입한 결과, EgoMAS는 기존의 주요 모델들을 크게 상회하는 성능을 보여주었다. 이번 성과는 단일 에이전트의 시각 능력을 넘어, 다중 에이전트 시스템의 집단 지성이 AI의 다음 혁신 지점이 될 것임을 시사한다.