VLM, '야바위' 게임 정복으로 시각 추적 한계 극복
- •VET-Bench 테스트 결과, 최첨단 시각-언어 모델들이 기초적인 시각 객체 추적 작업에서 실패하는 것으로 나타났다.
- •연구진은 고정 깊이의 Transformer가 명시적인 중간 감독 단계 없이는 동일한 외형의 객체를 추적하는 데 한계가 있음을 수학적으로 증명했다.
- •새로운 SGCoT 기법은 객체의 구체적인 궤적을 생성하는 방식으로 모델의 추적 정확도를 90%까지 대폭 향상시켰다.
시각-언어 모델(VLM)은 물체가 움직이고 위치가 바뀌는 상황에서 특정 객체를 추적하는 인지 능력인 이른바 '야바위 게임(shell game)'에서 오랫동안 어려움을 겪어왔다. 인간은 이를 본능적으로 수행하지만, 현재의 AI 모델들은 객체의 실제 경로를 추적하기보다 색상이나 질감 같은 고유한 시각적 특징에 의존하는 경향이 크다. 특히 시공간적으로 연속적인 추적이 필요한 동일한 외형의 객체들을 마주할 경우, 아무리 고도화된 모델이라도 무작위 추측보다 나은 성능을 내지 못하는 것이 현실이다.
이러한 기술적 간극을 메우기 위해 싱가포르 국립대학교(National University of Singapore) 연구진은 시공간적 연속성을 정밀하게 테스트할 수 있는 진단 도구인 'VET-Bench'를 도입했다. 연구진은 분석을 통해 표준적인 Transformer 아키텍처가 구분이 불가능한 개체를 추적할 때 근본적인 한계를 가진다는 사실을 수학적으로 증명해냈다. 이러한 모델들은 정보를 고정된 레이어에서 처리하기 때문에, 움직임을 기록할 수 있는 구조적인 장치가 없다면 연속된 비디오 프레임 사이에서 객체의 위치 정보를 지속적으로 유지하는 데 어려움을 겪기 때문이다.
연구진은 이에 대한 해결책으로 인공지능이 객체의 이동 궤적을 직접 서술하도록 유도하는 'Spatiotemporal Grounded Chain-of-Thought(SGCoT)' 방식을 제안했다. 이는 인간의 논리 구조를 모방한 것으로, 모델이 중간 추론 단계에서 좌표와 이동 설명을 생성하며 객체 위치에 대한 논리적 기록을 남기게 한다. 실제로 이 기술을 Molmo2 모델에 적용한 결과, 거의 0에 가깝던 정확도가 90% 이상으로 크게 뛰었다. 이는 명시적인 추론 과정이 시각적 추적 분야에서 아키텍처의 병목 현상을 극복할 수 있음을 시사한다.