3DreamBooth, 3D 인식 기반 고화질 비디오 생성 구현
2026년 3월 21일 (토)
- •3DreamBooth는 공간 기하 구조와 시간적 움직임을 분리해 3D 인식 기반의 비디오 커스텀 기능을 구현한다.
- •새로운 1프레임 최적화 기법을 도입하여 방대한 멀티뷰 학습 없이도 피사체의 3D 정체성을 정교하게 보존한다.
- •HunyuanVideo 등 오픈소스 모델과 통합되어 고화질 및 시점 일관성이 뛰어난 비디오 생성을 지원한다.
특정 인물이나 사물의 실사 비디오를 생성할 때, AI가 피사체를 입체적인 물체가 아닌 2D 단면처럼 처리하는 '평면화' 현상은 그간 고질적인 문제로 지적되어 왔다. 실제로 카메라가 캐릭터 주위를 회전할 때 3D 구조에 대한 이해가 부족하면 대상의 특징이 뒤틀리거나 사라지는 현상이 발생하며, 이는 가상현실이나 디지털 커머스 환경에서 몰입감을 저해하는 요소가 된다.
이에 연세대학교 연구진은 대상의 물리적 기하 구조와 움직임을 분리하는 특수 1프레임 최적화 전략을 도입한 3DreamBooth 프레임워크를 공개했다. 이 시스템은 먼저 피사체의 공간 구조를 고정함으로써 AI가 특정 움직임에만 과도하게 학습되어 본래의 외형을 잃어버리는 '시간적 과적합' 문제를 효과적으로 방지한다.
이러한 기술적 진보는 Asymmetrical Conditioning이라 불리는 시각적 조건화 모듈을 통해 뒷받침된다. 이 모듈은 제한된 참조 이미지에서 기하학적 정보를 추출하는 동적 라우터 역할을 수행하며, 덕분에 시각 데이터가 부족한 상황에서도 확인되지 않은 각도의 이미지를 높은 정밀도로 합성해낼 수 있다.
HunyuanVideo 및 WanVideo 2.1 등 최신 아키텍처와 호환되는 이 기술은 특정 모델에 종속되지 않아 개인화 서비스의 범용성을 넓혔다는 평가를 받는다. 가상 제품 전시부터 맞춤형 디지털 아바타 제작에 이르기까지, 3DreamBooth는 생성형 비디오 AI 분야에서 물리적 일관성의 새로운 기준을 제시하고 있다.