새로운 벤치마크, AI 영상 이해 능력의 민낯을 드러내다
- •Video-MME-v2는 복잡한 영상 추론 능력을 평가하기 위해 3단계의 엄격한 계층 구조를 도입했다
- •사람이 직접 3,300시간 동안 데이터 주석을 달아 평가 결과의 신뢰성을 확보했다
- •Gemini-3-Pro를 포함한 최신 모델조차 영상의 시간적 흐름을 파악하는 핵심 추론 과정에서 여전히 어려움을 겪고 있다
인공지능 발전의 역사에서 현재 우리는 다소 역설적인 상황에 직면했다. 모델들이 정적인 테스트에서 인간의 성능을 모방하는 데 능숙해지면서, 높은 리더보드 점수가 실제로는 깊이 있는 이해력의 부재를 가리는 장막이 되고 있다는 사실이 밝혀지고 있기 때문이다. 새로 출시된 Video-MME-v2는 이러한 '지능의 착시'를 걷어내고, AI가 영상을 시청하고 해석하는 방식을 더 엄격하게 평가하고자 한다.
이 벤치마크는 단순한 객체 인식 수준을 넘어, 영상 내의 시간적 흐름과 복잡한 상호작용을 파악하도록 설계되었다. 연구진은 3단계의 진보적인 계층 구조를 수립했다. 기초적인 형태 인식에서 시작하여 초 단위나 분 단위의 변화를 이해하는 시간적 역학(Temporal Dynamics)을 거치고, 최종적으로는 시각, 청각, 텍스트 정보를 종합해야 하는 멀티모달 추론 단계에 도달한다.
이 벤치마크의 가장 큰 강점은 방대한 인간 노동력을 투입했다는 점이다. 많은 최신 지표가 자동화된 과정이나 합성 데이터를 사용하는 것과 달리, 이 프로젝트에는 12명의 주석가와 50명의 검토자가 3,300시간 이상 참여했다. 덕분에 테스트 질문들은 단순히 어려운 수준에 그치지 않고, 인간이 영상을 관람하는 방식과 일치하는 논리적 건전성을 갖추게 되었다.
현재까지의 결과는 다소 충격적이다. Gemini-3-Pro와 같은 최첨단 시스템조차 전문가 수준의 평가와 비교하면 상당한 성능 격차를 보인다. 특히 데이터는 현행 AI 모델들이 초기 시각 정보 집약 단계에서부터 오류를 범하는 '계층적 병목 현상'을 겪고 있음을 시사한다.
흥미로운 점은 모델들이 시각적 부족함을 보완하기 위해 자막 정보에 과도하게 의존한다는 것이다. 실제로 오디오 텍스트를 제거하면 성능이 눈에 띄게 하락한다. 이는 현재의 AI 비서들이 영상을 실제로 '보고' 있는 것이 아니라, 사실상 영상을 '읽고' 있다는 방증이다.