Claude Sonnet 4.6, GDPval-AA 벤치마크 1위 등극
- •Claude Sonnet 4.6가 Opus 4.6를 제치고 GDPval-AA 벤치마크에서 최고 성능 모델로 기록됐다.
- •이 새로운 모델은 적응형 사고 작업을 위해 2억 8,000만 개의 토큰을 사용하며 1633점의 Elo 점수를 획득했다.
- •에이전틱 AI 루프 테스트에서 이전 모델 대비 승률이 85% 향상되는 성과를 거뒀다.
분석 전문 기관인 아티피셜 아날리시스(Artificial Analysis)는 복잡한 실무 지식 처리 능력을 평가하는 GDPval-AA 벤치마크의 새로운 선두주자로 Claude Sonnet 4.6를 선정했다. 특히 이번 결과에서 중간급 모델인 Sonnet 4.6가 Anthropic의 플래그십 모델인 Opus 4.6를 근소하게 앞지르며 1633점의 Elo 점수를 기록해 놀라움을 자아냈다. 이는 어려운 문제에 더 많은 연산 자원을 집중적으로 투입하는 '적응형 사고(adaptive thinking)' 모드 덕분인 것으로 분석된다.
다만 성능이 향상된 만큼 자원 소모량 역시 상당한 수준으로 증가했다. 실제로 Sonnet 4.6는 벤치마크 완수를 위해 이전 모델인 Sonnet 4.5보다 약 5배 많은 2억 8,000만 개의 토큰을 소모했다. 한편 Sonnet 4.6는 현재 가장 높은 순위에 올라 있으나, 유사한 과제를 40%가량 적은 토큰으로 처리한 Opus 4.6에 비해서는 효율성이 낮은 것으로 나타났다. 즉, Sonnet은 더 많은 비용과 시간을 들여 '깊게 생각하는' 방식을 통해 엘리트 수준의 성능을 구현한 셈이다.
GDPval-AA 지표는 데이터 분석이나 영상 편집과 같은 다단계 문제를 해결하기 위해 모델이 연속적인 루프 속에서 작동하는 에이전틱 AI 성능을 중점적으로 측정한다. 특히 오픈소스 도구인 Stirrup을 활용해 셸(shell) 접근과 웹 브라우징을 수행하며, 이는 단순한 챗봇 단계를 넘어 자율적인 문제 해결로 나아가는 과정을 보여준다. 무엇보다 OpenAI가 구축한 이 데이터셋은 44개의 다양한 직업군을 아우르고 있어, 실제 전문 업무 현장에서 발생하는 고난도 과제들을 효과적으로 반영한다.