베이징대학교, 이미지 공간 지각력 높이는 SpatialScore 공개
- •SpatialScore 보상 모델은 생성된 이미지 내 복잡한 공간 관계에 대한 AI의 해석 능력을 대폭 개선한다.
- •베이징대학교 연구진은 8만 개 이상의 인간 선호도 비교 데이터를 포함한 SpatialReward-Dataset을 구축했다.
- •온라인 강화 학습을 적용한 결과, 이미지 생성 모델의 공간적 정확도가 기존 유료 시스템의 성능을 뛰어넘었다.
현재의 텍스트-이미지 생성 모델은 놀라운 창의성을 보여주지만, 사물을 특정 위치에 배치하는 정밀한 작업에서는 여전히 한계를 드러낸다. 가령 '파란 조명 왼쪽에 있는 고양이'를 그려달라는 요청에 AI가 사물의 위치를 뒤바꾸거나 아예 조명을 생략하는 식이다. 이처럼 원하는 레이아웃을 얻기 위해 번거로운 시행착오를 반복해야 한다는 점은 그동안 창작 도구로서의 전문적인 활용성을 제한하는 주요 원인이었다.
이를 해결하기 위해 베이징대학교 연구진은 공간 논리를 판별하는 일종의 심사위원 역할을 수행하는 특화 보상 모델인 SpatialScore를 선보였다. 이 시스템은 8만 개 이상의 비교 데이터 쌍으로 구성된 SpatialReward-Dataset을 기반으로 학습되었다. 해당 데이터셋은 공간 지침을 정확히 따른 이미지와 그렇지 못한 이미지를 대조하며, 모델은 인간이 검증한 선호도를 학습함으로써 물리적 공간과 사물 간 상호작용에 대한 정교한 감각을 체득했다.
특히 해당 기술의 진정한 돌파구는 보상 모델의 활용 방식에 있다. AI가 시행착오와 피드백을 거치며 스스로 발전하는 강화 학습 기법을 도입함으로써, 생성 모델이 결과물을 실시간으로 교정하고 정교화할 수 있도록 했다. 이러한 접근 방식은 최종 이미지가 단순히 시각적으로 아름다울 뿐만 아니라, 사용자가 의도한 위치에 모든 사물을 정확하게 배치하도록 보장한다.
실제 성능 시험에서 SpatialScore는 공간적 정확도 면에서 여러 주요 유료 모델을 앞지르는 성과를 거두었다. 이러한 기술적 진보는 향후 AI 도구가 단순한 미적 완성도를 넘어 현실 세계의 복잡한 기하학적 구조까지 완벽히 이해하게 될 것임을 시사한다. 결과적으로 전문 디자인이나 레이아웃 기획, 건축 시각화 등 정밀함이 요구되는 산업 분야에서 AI의 신뢰도와 활용 가치가 더욱 높아질 전망이다.