Image Arena, 카테고리별 리더보드와 품질 필터 도입
- •Image Arena가 시각적 도메인별 성능을 정밀 측정하기 위해 7개의 카테고리 리더보드를 도입했다.
- •리더보드의 통계적 신뢰도를 높이고자 부적절한 프롬프트를 15% 제거하는 새로운 필터링 시스템을 구축했다.
- •인물 사진, 예술, 텍스트 렌더링 등 세부 분야에서 각 모델이 가진 고유한 강점이 명확하게 공개되었다.
생성형 AI 모델의 평가 방식이 단순히 전체 성능을 훑어보던 '일괄 측정'에서 벗어나 도메인별로 특화된 전략으로 진화하고 있다. 이에 발맞춰 Arena Team은 기존의 단일 통합 순위를 넘어 7가지의 독립된 카테고리 리더보드를 갖춘 'Text-to-Image Arena' 업데이트를 전격 공개했다. 개발팀은 400만 개 이상의 사용자 프롬프트를 정밀 분석한 결과, 3D 이미징이나 정교한 텍스트 렌더링 등 사용자의 의도에 따라 모델의 성능이 크게 요동친다는 사실을 확인했다.
이러한 세부적인 접근 방식은 기존 파운데이션 모델들에 대한 흥미로운 통찰을 제공한다. 실제로 GPT-image-1.5와 같은 유명 모델이 전체 순위에서는 상위권을 차지하고 있지만, 3D 구조 생성 분야에서는 Nano-banana-pro 모델이 독보적인 성능을 보여주었다. 또한 Qwen-image-2512는 일반 순위가 상대적으로 낮음에도 불구하고 인물 사진 카테고리에서는 체급 이상의 뛰어난 결과물을 내놓았다. 이는 특정 창의적 작업에 있어 단순히 종합 점수에 의존하기보다 목적에 맞는 도구를 선택하는 것이 얼마나 중요한지를 시사한다.
데이터의 정확도를 높이기 위한 필터링 체계도 대폭 강화되었다. Arena Team은 대규모 언어 모델 (LLM) 기반의 필터를 도입하여, 이력서 내용이 실수로 붙여넣어지거나 시스템이 수행할 수 없는 비디오 제작 지침과 같은 '노이즈' 프롬프트를 걸러내기 시작했다. 전체의 약 15%에 달하는 이러한 이상치를 제거함으로써, 리더보드는 실제 텍스트-투-이미지 생성 능력을 반영하는 높은 통계적 신뢰성을 확보하게 되었다. 이번 업데이트는 급변하는 AI 이미지 생성 기술을 더욱 투명하고 신뢰할 수 있는 틀 안에서 평가할 수 있는 기반을 마련해 줄 것으로 기대된다.