RL3DEdit, 강화 학습으로 3D 편집의 한계 넘었다
2026년 3월 11일 (수)
- •RL3DEdit은 강화 학습을 통해 3D 장면 편집 시 다각도 시각 일관성을 확보한다.
- •부족한 3D 데이터 대신 VGGT 기반 모델의 보상 신호를 활용하는 혁신적 프레임워크를 채택했다.
- •기존 최신 기법보다 뛰어난 효율성과 시각적 안정성을 입증하며 제작 장벽을 낮췄다.
3D 장면 편집은 사물이 보는 각도에 따라 일관된 형태를 유지하기 어렵다는 점 때문에 AI 분야의 오랜 난제였다. 2D 이미지 편집 기술은 비약적으로 발전했으나, 이를 3D 공간으로 확장하면 측면에서 본 사물의 모습이 정면과 달라지는 '환각' 현상이 빈번하게 발생하곤 했다. RL3DEdit은 단순히 콘텐츠를 생성하는 것을 넘어, 여러 시점에서 구조적 무결성을 검증하는 방식으로 이 문제를 해결했다.
특히 연구팀은 전문화된 3D 학습 데이터의 부족을 해결하기 위해 기발한 우회 방법을 도입했다. 모델에게 정답 데이터를 직접 가르치는 대신, 시행착오를 통해 스스로 배우는 강화 학습 방식을 적용한 것이다. 이때 3D 기반 모델인 VGGT가 일종의 심판 역할을 수행하며 보상을 제공한다. VGGT는 포즈 추정 오차와 신뢰도를 정밀하게 계산하여, 편집된 이미지가 3D 공간상에 올바르게 정렬되었는지를 확인한다.
이러한 기하학적 피드백 루프 덕분에 RL3DEdit은 2D 편집 내용을 일관된 3D 구조 위에 고정할 수 있다. 이에 따라 사물의 색상이나 질감을 바꾸더라도 카메라 시점 이동 시 흔들림 없이 사실적인 결과물을 유지한다. 남양공과대학교 연구진은 이 단일 패스 프레임워크가 기존 방식보다 훨씬 효율적이며, 가상 환경을 위한 고품질 3D 콘텐츠 제작의 진입 장벽을 크게 낮출 것이라고 강조했다.