이 기사의 핵심 내용은?

Claude Sonnet 4.6가 Opus 4.6를 제치고 GDPval-AA 벤치마크에서 최고 성능 모델로 기록됐다. 이 새로운 모델은 적응형 사고 작업을 위해 2억 8,000만 개의 토큰을 사용하며 1633점의 Elo 점수를 획득했다. 에이전틱 AI 루프 테스트에서 이전 모델 대비 승률이 85% 향상되는 성과를 거뒀다.

Claude Sonnet 4.6, GDPval-AA 벤치마크 1위 등극

•Claude Sonnet 4.6가 Opus 4.6를 제치고 GDPval-AA 벤치마크에서 최고 성능 모델로 기록됐다.
•이 새로운 모델은 적응형 사고 작업을 위해 2억 8,000만 개의 토큰을 사용하며 1633점의 Elo 점수를 획득했다.
•에이전틱 AI 루프 테스트에서 이전 모델 대비 승률이 85% 향상되는 성과를 거뒀다.

•중간급 인공지능인 '소네트 4.6'이 가장 형님급 모델을 제치고 실력 검사에서 1등을 차지했어요.
•어려운 문제를 만났을 때 더 깊게 고민하는 특별한 방법(적응형 사고)을 사용해 아주 높은 점수를 받았어요.
•스스로 도구를 사용해 복잡한 일을 끝까지 해내는 능력(에이전틱 AI)이 이전보다 훨씬 좋아졌어요.

분석 전문 기관인 아티피셜 아날리시스(Artificial Analysis)는 복잡한 실무 지식 처리 능력을 평가하는 GDPval-AA 벤치마크의 새로운 선두주자로 Claude Sonnet 4.6를 선정했다. 특히 이번 결과에서 중간급 모델인 Sonnet 4.6가 Anthropic의 플래그십 모델인 Opus 4.6를 근소하게 앞지르며 1633점의 Elo 점수를 기록해 놀라움을 자아냈다. 이는 어려운 문제에 더 많은 연산 자원을 집중적으로 투입하는 '적응형 사고(adaptive thinking)' 모드 덕분인 것으로 분석된다.

다만 성능이 향상된 만큼 자원 소모량 역시 상당한 수준으로 증가했다. 실제로 Sonnet 4.6는 벤치마크 완수를 위해 이전 모델인 Sonnet 4.5보다 약 5배 많은 2억 8,000만 개의 토큰을 소모했다. 한편 Sonnet 4.6는 현재 가장 높은 순위에 올라 있으나, 유사한 과제를 40%가량 적은 토큰으로 처리한 Opus 4.6에 비해서는 효율성이 낮은 것으로 나타났다. 즉, Sonnet은 더 많은 비용과 시간을 들여 '깊게 생각하는' 방식을 통해 엘리트 수준의 성능을 구현한 셈이다.

GDPval-AA 지표는 데이터 분석이나 영상 편집과 같은 다단계 문제를 해결하기 위해 모델이 연속적인 루프 속에서 작동하는 에이전틱 AI 성능을 중점적으로 측정한다. 특히 오픈소스 도구인 Stirrup을 활용해 셸(shell) 접근과 웹 브라우징을 수행하며, 이는 단순한 챗봇 단계를 넘어 자율적인 문제 해결로 나아가는 과정을 보여준다. 무엇보다 OpenAI가 구축한 이 데이터셋은 44개의 다양한 직업군을 아우르고 있어, 실제 전문 업무 현장에서 발생하는 고난도 과제들을 효과적으로 반영한다.

인공지능의 실력을 전문적으로 검사하는 곳에서 '클로드 소네트 4.6'이라는 인공지능이 복잡한 업무를 가장 잘 해결한다고 발표했어요. 특히 놀라운 점은 중간급 모델인 소네트 4.6이 가장 성능이 좋다고 알려진 형님 모델인 '오퍼스 4.6(플래그십 모델)'을 근소하게 앞질러 1633점이라는 높은 점수(Elo 점수)를 기록했다는 거예요. 이는 어려운 문제를 만났을 때 더 많은 컴퓨터 계산 능력을 집중해서 끈기 있게 고민하는 '깊게 생각하는 방식(적응형 사고)' 덕분이라고 해요.

하지만 공부를 아주 열심히 한 만큼 에너지도 많이 썼어요. 실제로 소네트 4.6은 문제를 다 풀기 위해 이전 모델보다 5배나 많은 단어 조각(토큰)을 사용했거든요. 현재 1등 자리에 있기는 하지만, 똑같은 문제를 40%나 적은 단어로 풀어낸 오퍼스 4.6에 비하면 효율성은 조금 낮은 편이에요. 다시 말해, 소네트 4.6은 시간과 비용을 더 많이 들여서 아주 꼼꼼하게 생각하는 방식을 통해 최고의 실력을 보여준 셈이에요.

이번 실력 검사(GDPval-AA 벤치마크)는 인공지능이 데이터 분석이나 영상 편집처럼 여러 단계를 스스로 해결하는 능력(에이전틱 AI)을 집중적으로 확인했어요. 인공지능이 직접 인터넷을 검색하거나 컴퓨터 명령 통로(셸 접근)를 사용하면서, 단순히 대화만 나누는 수준을 넘어 스스로 문제를 해결하는 과정을 보여준 것이죠. 이 시험지는 44가지나 되는 다양한 직업에서 실제로 일어나는 어려운 문제들을 모아놓은 것이라, 실제 일터에서 인공지능이 얼마나 일을 잘할 수 있는지 잘 보여줍니다.

Claude Sonnet 4.6, GDPval-AA 벤치마크 1위 등극

똑똑한 인공지능 '클로드 소네트 4.6', 어려운 문제 풀기 대회에서 1등 했어요!

태그