구글 DeepMind, 1만 9천 프레임급 3D 비디오 재구성 기술 'LoGeR' 공개
- •LoGeR는 사후 최적화 과정 없이도 1만 9,000프레임 이상의 방대한 비디오 시퀀스에서 일관된 3D 재구성을 구현한다.
- •전역적·지역적 일관성을 동시에 확보하기 위해 테스트 시점 학습(TTT)과 슬라이딩 윈도우 어텐션을 결합한 하이브리드 메모리 아키텍처를 도입했다.
- •KITTI 벤치마크 테스트 결과, 기존 방식 대비 절대 궤적 오차(ATE)를 74%나 절감하는 획기적인 성능 향상을 입증했다.
비디오에서 3D 장면을 재구성하는 작업은 시간이 흐를수록 작은 오류가 축적되어 디지털 지도가 왜곡되고 정확도가 떨어지는 '드리프트(drift)' 현상으로 인해 오랫동안 난항을 겪어왔다. 이에 구글 DeepMind와 UC 버클리 연구진은 수천 프레임에 걸쳐 완벽한 정렬을 유지하도록 설계된 기하학적 파운데이션 모델인 LoGeR를 선보였다. LoGeR는 처리 후 오류를 수정하기 위해 느리고 수동적인 최적화가 필요했던 기존 방식과 달리, 완전히 피드포워드(feedforward) 방식으로 작동하며 비디오 청크를 효율적으로 처리하는 동시에 안정적인 전역 관점을 유지하는 데 성공했다.
이러한 기술적 돌파구의 핵심은 '하이브리드 메모리' 시스템에 있다. LoGeR는 테스트 시점 학습(TTT)이라는 파라미터 메모리 구성 요소를 사용해 전역 좌표계를 고정하며, 이를 통해 카메라의 이동 경로가 장거리에 걸쳐서도 척도나 방향을 잃지 않도록 보장한다. 이와 동시에 슬라이딩 윈도우 어텐션 메커니즘을 병행하여 인접한 프레임 사이의 미세한 디테일을 정밀하게 처리한다. 이러한 조합 덕분에 모델은 고정밀 정렬에 필요한 즉각적인 시각적 단서에 집중하면서도, 수 킬로미터에 달하는 주행 경로의 전체적인 구조를 명확히 기억할 수 있다.
무엇보다 LoGeR는 서로 다른 규모의 데이터에서도 뛰어난 일반화 능력을 보여준다는 점이 놀랍다. 실제로 이 모델은 단 128프레임의 짧은 시퀀스로 학습되었음에도 불구하고, 실제 사용 환경에서는 학습 데이터보다 무려 150배나 긴 비디오를 성공적으로 재구성해냈다. 표준 벤치마크에서 궤적 오차를 74%나 줄인 이번 성과는 신뢰할 수 있는 자율 주행 및 대규모 디지털 트윈 구축을 위한 새로운 길을 열었으며, 기하학적 AI가 실세계의 복잡한 장거리 과제를 해결할 수 있음을 증명했다.