네이버 AI 랩, 도시 규모 시뮬레이션 모델 'SWM' 공개
- •네이버 AI 랩이 실제 도시 환경을 정밀하게 구현한 '서울 월드 모델(SWM)'을 선보였다.
- •SWM은 수백만 개의 거리 뷰 이미지를 활용한 검색 증강 생성 기술을 통해 공간적 정확도를 확보했다.
- •새롭게 도입된 Virtual Lookahead Sink 기술은 수 킬로미터에 달하는 도심 경로에서도 안정적인 비디오 생성을 가능케 한다.
단순히 환상 속의 가상 도시를 그려내는 것이 아니라, 실제 존재하는 서울의 거리를 있는 그대로 정밀하게 구현하는 월드 모델을 상상해 보자. 네이버 AI 랩 연구진은 순수한 가상 시나리오가 아닌 실제 데이터를 기반으로 도시 규모의 시뮬레이션을 수행하는 '서울 월드 모델(SWM)'을 개발했다. 기존 월드 모델은 장거리 이동 시 시각적 일관성을 유지하는 데 어려움을 겪는 경우가 많았으나, SWM은 방대한 거리 뷰 이미지 데이터베이스를 활용하여 비디오 생성의 정확도를 획기적으로 높였다.
정적인 거리 사진으로부터 역동적인 비디오를 제작하기 위해, 연구팀은 드문드문 촬영된 정지 영상들 사이를 메워 매끄러운 학습용 영상을 만드는 View Interpolation 파이프라인을 구축했다. 또한 검색된 참조 이미지와 대상 장면의 조명이나 교통 상황이 일치하지 않는 문제를 해결하고자 '교차 시간 페어링' 기술을 도입했다. 그 결과 소스 데이터가 수년 전의 것이거나 촬영 시간대가 다르더라도 모델은 시각적 충실도를 안정적으로 유지할 수 있다.
무엇보다 혁신적인 성과는 'Virtual Lookahead Sink' 기술의 도입이다. 이 메커니즘은 AI를 미래 지점의 이미지에 지속적으로 고정함으로써 장거리 비디오 생성 시 발생하는 왜곡이나 화면이 흐려지는 현상을 방지한다. 실제로 서울과 부산 전역에서 테스트를 진행한 결과, SWM은 수백 미터에 달하는 공간을 실제와 같이 충실하게 재현해 냈으며 이는 향후 정교한 자율주행 자동차 학습을 위한 중요한 토대가 될 전망이다.