Claude Sonnet 4.6がGDPval-AAで首位に
- •Claude Sonnet 4.6がOpus 4.6を抜き、GDPval-AAベンチマークで最高評価を記録した。
- •新モデルは適応型思考タスクにおいて2億8,000万トークンを費やし、1633のEloレーティングを達成した。
- •エージェント的なループ処理テストにおいて、前モデルから85%もの勝率向上を実証している。
Artificial Analysisは、Claude Sonnet 4.6を最新のGDPval-AAベンチマークにおける新たなリーダーとして認定した。このベンチマークは、モデルが複雑で実社会に即した知識労働をいかに処理するかを厳格に評価するものだ。驚くべきことに、中位モデルであるSonnet 4.6がAnthropicのフラッグシップモデルであるOpus 4.6をわずかに上回り、1633のEloレーティングを獲得したのである。この卓越した性能は、新たに導入された「適応型思考モード」によって実現されており、困難な問題に対してより多くの計算リソースを動的に割り当てることが可能になった。
しかし、この飛躍的な性能向上にはリソース消費の大幅な増加という側面も伴っている。実際に、Sonnet 4.6はベンチマーク完遂のために2億8,000万トークンを処理したが、これは前モデルであるSonnet 4.5が使用した5,800万トークンの約5倍に相当する。興味深いことに、Sonnet 4.6は現在最高ランクに位置しているものの、同様のタスクを約40%少ないトークンで完了したOpus 4.6と比較すると、効率性の面では劣ることが判明した。このトレードオフは、Sonnetが最高峰の性能に到達できる一方で、より長く、よりコストのかかる「思考」を必要とすることを示唆している。
そもそもGDPval-AA指標は、データ分析や動画編集といった多段階の問題を解決するために、モデルが継続的なループ内で動作する「エージェント性能」に特化している。Stirrupと呼ばれるオープンソースのハーネスを通じてシェルアクセスやウェブブラウジングを活用することで、これらのモデルは単純なチャットを超えた自律的な問題解決へと進化を遂げた。このベンチマークの基盤となるデータセットは、もともとOpenAIによってキュレーションされたものであり、44種類の異なる職業を網羅している。その結果は、現代の専門的なビジネス環境で直面する極めて高度なタスクを忠実に反映したものと言えるだろう。