비디오 확산 모델, MLLM에 3D 공간 지각력 부여
- •VEGA-3D는 사전 학습된 비디오 확산 모델을 멀티모달 AI를 위한 잠재적 세계 시뮬레이터로 재구성했다.
- •노이즈 레벨에서 3D 구조적 사전 지식을 추출하여 MLLM의 공간 지각 부족 문제를 해결하는 프레임워크를 제안했다.
- •3D 장면 이해 및 로봇의 Embodied Manipulation 작업에서 새로운 성능 표준을 기록했다.
최신 멀티모달 대규모 언어 모델(MLLM)은 이미지를 놀라울 정도로 명확하게 묘사하지만, 정작 관찰하는 세상의 3차원 기하학적 구조나 물리 법칙은 제대로 파악하지 못하는 '공간 맹목' 현상을 겪는 경우가 많다. 이러한 한계는 깊이와 부피가 중요한 로봇 내비게이션이나 정밀한 공간 추론과 같은 복잡한 작업 수행을 방해하는 요소가 된다.
연구진은 이러한 격차를 해소하기 위해 비디오 확산 모델을 '잠재적 세계 시뮬레이터'로 활용하는 VEGA-3D 프레임워크를 도입했다. 핵심 원리는 간단하다. AI가 사실적이고 일관된 비디오를 생성하려면 객체가 3차원 공간에서 어떻게 존재하고 움직이는지 암묵적으로 이해해야 한다는 점에 착안한 것이다. 특히 시스템은 이러한 숨겨진 물리적 사전 지식을 활용함으로써 값비싼 3D 레이블 데이터 없이도 MLLM에 공간 지각 능력을 제공한다.
구체적으로는 비디오 생성 과정의 중간 단계, 특히 구조적 세부 사항이 드러나는 노이즈 레벨에서 Spatiotemporal Features를 추출하는 방식으로 작동한다. 이렇게 추출된 기하학적 단서들은 '적응형 게이트 퓨전(adaptive gated fusion)' 메커니즘을 통해 언어 모델에 통합되며, 시스템은 특정 작업에 필요한 공간 정보의 양을 스스로 결정한다.
실험 결과에 따르면 이 방식은 3D 장면 이해와 Embodied Manipulation 분야에서 기존 베이스라인 모델들을 크게 앞질렀다. 생성 모델을 공간 교육자로 변모시킨 VEGA-3D는 AI가 자신이 속한 환경의 물리적 차원을 진정으로 이해할 수 있게 하는 확장 가능한 경로를 제시했다.