Spatial-TTT, AI에게 실시간 3D 공간 인지 능력 부여
- •Spatial-TTT는 연속적인 비디오 스트림에서 3D 환경을 매핑하기 위해 테스트 시점 학습(Test-Time Training)을 활용한다.
- •새로운 하이브리드 아키텍처는 빠른 가중치 업데이트를 통해 긴 시퀀스에서도 공간 기억을 유지한다.
- •이 모델은 기하학적 대응과 시간적 연속성을 포착하는 데 있어 세계 최고 수준의 성능을 달성했다.
Spatial-TTT는 인공지능이 시각 데이터를 통해 물리적 세계를 인식하고 구성하는 방식에 있어 중대한 도약을 의미한다. 기존 모델은 카메라가 움직임에 따라 3D 공간에 대한 이해를 효과적으로 기억하거나 업데이트하지 못해 긴 비디오 시퀀스를 처리하는 데 어려움을 겪는 경우가 많았다. 하지만 테스트 시점 학습(Test-Time Training)을 활용하는 이 새로운 접근 방식은 모델이 내부 매개변수, 즉 '빠른 가중치(fast weights)'를 실시간으로 조정하여 제한 없는 비디오 스트림으로부터 공간적 단서를 더 잘 포착할 수 있게 한다.
이 아키텍처는 대규모 청크 업데이트와 슬라이딩 윈도우 어텐션을 결합한 정교한 하이브리드 구조를 갖추고 있다. 이러한 설계를 통해 시스템은 비디오를 효율적으로 처리하는 동시에 환경에 대한 일관된 정신적 지도를 유지할 수 있다. 특히 연구진은 이러한 능력을 강화하기 위해 공간 예측 메커니즘을 도입했다. 이 도구는 모델이 객체 간의 기하학적 관계와 시간에 따른 움직임(시간적 연속성)을 인식하도록 유도하며, 이는 인간이 자연스럽게 깊이와 부피를 느끼는 방식과 유사하다.
단순한 코드와 수학적 원리를 넘어, 연구팀은 조밀한 3D 공간 묘사로 가득 찬 특화된 데이터셋을 개발했다. 이 데이터는 모델이 단순히 평면적인 이미지의 나열을 보는 것이 아니라, 전역적인 신호를 구조화하고 암기하는 방법을 가르치는 가이드 역할을 한다. 그 결과 공간 지능 분야에서 탁월한 성능을 보이는 시스템이 탄생했으며, 이는 거주 공간의 복잡한 레이아웃을 진정으로 이해하는 자율 주행 로봇이나 증강 현실(AR) 시스템으로 나아가는 길을 열어줄 것으로 기대된다.