이 기사의 핵심 내용은?

AAA급 게임의 400만 프레임을 활용한 고성능 AI 렌더링 데이터셋 공개 정답 데이터 없이도 품질 평가가 가능한 새로운 VLM 기반 프로토콜 도입 텍스트 프롬프트로 3D 장면 스타일을 수정할 수 있는 새로운 툴킷 제공

AI 3D 렌더링의 현실감을 높이는 새로운 데이터셋

•AAA급 게임의 400만 프레임을 활용한 고성능 AI 렌더링 데이터셋 공개
•정답 데이터 없이도 품질 평가가 가능한 새로운 VLM 기반 프로토콜 도입
•텍스트 프롬프트로 3D 장면 스타일을 수정할 수 있는 새로운 툴킷 제공

AI를 활용해 현실적인 3D 환경을 구현할 때 가장 큰 걸림돌은 고품질의 다양하고 방대한 학습 데이터가 부족하다는 점이다. 모델들은 실제와 같은 장면을 정의하는 복잡한 기하학적 구조나 조명, 질감을 해석하는 데 어려움을 겪곤 한다. 이러한 문제를 해결하기 위해 Shanda AI 연구진은 AAA급 게임에서 추출한 거대한 동적 데이터셋을 구축했다. 이들은 400만 개의 연속적인 프레임을 RGB 데이터와 함께 G-buffer 데이터로 동기화하여 수집함으로써, AI가 3D 장면의 작동 원리를 학습할 수 있는 견고한 기반을 마련했다.

이번 성과는 2D 이미지로부터 원래의 3D 장면을 복원하는 역 렌더링 분야에서 특히 중요하다. AI가 장면을 구성하는 핵심 재료 단위로 해체하는 법을 학습하면, 역으로 가상 세계의 스타일을 텍스트 프롬프트만으로 쉽게 수정하는 기능도 가능해진다. 또한 연구진은 완벽한 참조 데이터 없이 모델 성능을 평가해야 하는 난제를 해결하기 위해 Vision-Language Model을 활용한 새로운 평가 프로토콜을 도입했다. 해당 모델이 장면의 의미론적, 공간적 일관성을 평가하도록 한 결과, 인간의 판단과 높은 상관관계를 보이며 생성형 3D 모델 벤치마킹의 새로운 표준을 제시했다. 이러한 발전은 향후 복잡한 수작업 없이도 고품질의 3D 에셋을 즉각적으로 생성할 수 있는 미래를 앞당기고 있다.

AI를 활용해 현실적인 3D 환경을 구현할 때 가장 큰 걸림돌은 고품질의 다양하고 방대한 학습 데이터가 부족하다는 점이다. 모델들은 실제와 같은 장면을 정의하는 복잡한 기하학적 구조나 조명, 질감을 해석하는 데 어려움을 겪곤 한다. 이러한 문제를 해결하기 위해 Shanda AI 연구진은 AAA급 게임에서 추출한 거대한 동적 데이터셋을 구축했다. 이들은 400만 개의 연속적인 프레임을 RGB 데이터와 함께 G-buffer 데이터로 동기화하여 수집함으로써, AI가 3D 장면의 작동 원리를 학습할 수 있는 견고한 기반을 마련했다.

이번 성과는 2D 이미지로부터 원래의 3D 장면을 복원하는 역 렌더링 분야에서 특히 중요하다. AI가 장면을 구성하는 핵심 재료 단위로 해체하는 법을 학습하면, 역으로 가상 세계의 스타일을 텍스트 프롬프트만으로 쉽게 수정하는 기능도 가능해진다. 또한 연구진은 완벽한 참조 데이터 없이 모델 성능을 평가해야 하는 난제를 해결하기 위해 Vision-Language Model을 활용한 새로운 평가 프로토콜을 도입했다. 해당 모델이 장면의 의미론적, 공간적 일관성을 평가하도록 한 결과, 인간의 판단과 높은 상관관계를 보이며 생성형 3D 모델 벤치마킹의 새로운 표준을 제시했다. 이러한 발전은 향후 복잡한 수작업 없이도 고품질의 3D 에셋을 즉각적으로 생성할 수 있는 미래를 앞당기고 있다.

AI 3D 렌더링의 현실감을 높이는 새로운 데이터셋

태그