이 기사의 핵심 내용은?

3D 공간 패치와 잠재 프레임을 결합한 하이브리드 메모리 'MosaicMem'이 공개됐다. 복잡한 카메라 이동과 장시간 내비게이션 환경에서도 시각적 일관성을 유지한다. 모델의 대규모 미세 조정 없이도 정교한 장면 편집과 분 단위의 비디오 생성을 지원한다.

하이브리드 공간 메모리로 비디오 일관성·내비게이션 혁신

•3D 공간 패치와 잠재 프레임을 결합한 하이브리드 메모리 'MosaicMem'이 공개됐다.
•복잡한 카메라 이동과 장시간 내비게이션 환경에서도 시각적 일관성을 유지한다.
•모델의 대규모 미세 조정 없이도 정교한 장면 편집과 분 단위의 비디오 생성을 지원한다.

비디오 확산 모델은 가상 카메라가 이동하거나 이전에 방문했던 위치로 되돌아올 때 시각적 연속성을 유지하는 데 오랫동안 어려움을 겪어왔다. 이로 인해 배경이나 환경이 예기치 않게 변하는 시각적 오류가 빈번하게 발생하곤 했다. 기존 방식은 대개 구조가 경직되어 움직이는 물체를 처리하기 힘든 명시적 3D 구조를 사용하거나, 정교한 카메라 경로를 정확히 따르지 못하는 암묵적 메모리 방식 중 하나를 선택해야만 하는 한계가 있었다.

연구진은 이러한 두 가지 접근 방식의 간극을 메우는 하이브리드 공간 메모리 시스템인 MosaicMem을 선보였다. 이 시스템은 이미지의 작은 조각인 패치를 3D 좌표계로 투영함으로써, 카메라가 바라보는 위치에 따라 시각 정보를 정확하게 배치하고 불러온다. 특히 이러한 패치 구성 기술을 통해 안정적인 배경 구조를 보존하면서도 새로운 요소나 움직이는 대상을 자연스럽게 채워 넣는 인페인팅을 수행하며, 이를 통해 시간이 흘러도 세계의 응집력이 유지되도록 보장한다.

또한 이 시스템은 고비용의 재학습 과정 없이 3D 기하학 정보와 AI의 내부 생성 프로세스를 융합하는 정교한 정렬 기술을 활용한다. 이러한 기술적 도약 덕분에 가상 공간에서의 분 단위 내비게이션이나 복잡한 장면 편집과 같은 고급 기능이 가능해졌다. 이제 사용자는 단절된 클립의 나열이 아닌, 일관성 있는 시뮬레이터처럼 작동하는 월드 모델을 통해 더욱 몰입감 넘치는 AI 생성 환경을 경험할 수 있게 되었다.

비디오 확산 모델은 가상 카메라가 이동하거나 이전에 방문했던 위치로 되돌아올 때 시각적 연속성을 유지하는 데 오랫동안 어려움을 겪어왔다. 이로 인해 배경이나 환경이 예기치 않게 변하는 시각적 오류가 빈번하게 발생하곤 했다. 기존 방식은 대개 구조가 경직되어 움직이는 물체를 처리하기 힘든 명시적 3D 구조를 사용하거나, 정교한 카메라 경로를 정확히 따르지 못하는 암묵적 메모리 방식 중 하나를 선택해야만 하는 한계가 있었다.

연구진은 이러한 두 가지 접근 방식의 간극을 메우는 하이브리드 공간 메모리 시스템인 MosaicMem을 선보였다. 이 시스템은 이미지의 작은 조각인 패치를 3D 좌표계로 투영함으로써, 카메라가 바라보는 위치에 따라 시각 정보를 정확하게 배치하고 불러온다. 특히 이러한 패치 구성 기술을 통해 안정적인 배경 구조를 보존하면서도 새로운 요소나 움직이는 대상을 자연스럽게 채워 넣는 인페인팅을 수행하며, 이를 통해 시간이 흘러도 세계의 응집력이 유지되도록 보장한다.

또한 이 시스템은 고비용의 재학습 과정 없이 3D 기하학 정보와 AI의 내부 생성 프로세스를 융합하는 정교한 정렬 기술을 활용한다. 이러한 기술적 도약 덕분에 가상 공간에서의 분 단위 내비게이션이나 복잡한 장면 편집과 같은 고급 기능이 가능해졌다. 이제 사용자는 단절된 클립의 나열이 아닌, 일관성 있는 시뮬레이터처럼 작동하는 월드 모델을 통해 더욱 몰입감 넘치는 AI 생성 환경을 경험할 수 있게 되었다.

하이브리드 공간 메모리로 비디오 일관성·내비게이션 혁신

태그