この記事の要点は？

Claude Sonnet 4.6がOpus 4.6を抜き、GDPval-AAベンチマークで最高評価を記録した。新モデルは適応型思考タスクにおいて2億8,000万トークンを費やし、1633のEloレーティングを達成した。エージェント的なループ処理テストにおいて、前モデルから85%もの勝率向上を実証している。

Claude Sonnet 4.6がGDPval-AAで首位に

Q: この記事の要点は？

Claude Sonnet 4.6がOpus 4.6を抜き、GDPval-AAベンチマークで最高評価を記録した。 新モデルは適応型思考タスクにおいて2億8,000万トークンを費やし、1633のEloレーティングを達成した。 エージェント的なループ処理テストにおいて、前モデルから85%もの勝率向上を実証している。

•Claude Sonnet 4.6がOpus 4.6を抜き、GDPval-AAベンチマークで最高評価を記録した。
•新モデルは適応型思考タスクにおいて2億8,000万トークンを費やし、1633のEloレーティングを達成した。
•エージェント的なループ処理テストにおいて、前モデルから85%もの勝率向上を実証している。

•「クロード（Claude）ソネット 4.6」というAIが、今までで一番賢いという評価（ベンチマーク）を受けました。
•たくさんのエネルギー（トークン）を使ってじっくり考えることで、難しい問題を解く力がとても高くなりました。
•自分でネットで調べたりパソコンを動かしたりして仕事をやり遂げる力が、前のモデルより85%もアップしました。

Artificial Analysisは、Claude Sonnet 4.6を最新のGDPval-AAベンチマークにおける新たなリーダーとして認定した。このベンチマークは、モデルが複雑で実社会に即した知識労働をいかに処理するかを厳格に評価するものだ。驚くべきことに、中位モデルであるSonnet 4.6がAnthropicのフラッグシップモデルであるOpus 4.6をわずかに上回り、1633のEloレーティングを獲得したのである。この卓越した性能は、新たに導入された「適応型思考モード」によって実現されており、困難な問題に対してより多くの計算リソースを動的に割り当てることが可能になった。

しかし、この飛躍的な性能向上にはリソース消費の大幅な増加という側面も伴っている。実際に、Sonnet 4.6はベンチマーク完遂のために2億8,000万トークンを処理したが、これは前モデルであるSonnet 4.5が使用した5,800万トークンの約5倍に相当する。興味深いことに、Sonnet 4.6は現在最高ランクに位置しているものの、同様のタスクを約40%少ないトークンで完了したOpus 4.6と比較すると、効率性の面では劣ることが判明した。このトレードオフは、Sonnetが最高峰の性能に到達できる一方で、より長く、よりコストのかかる「思考」を必要とすることを示唆している。

そもそもGDPval-AA指標は、データ分析や動画編集といった多段階の問題を解決するために、モデルが継続的なループ内で動作する「エージェント性能」に特化している。Stirrupと呼ばれるオープンソースのハーネスを通じてシェルアクセスやウェブブラウジングを活用することで、これらのモデルは単純なチャットを超えた自律的な問題解決へと進化を遂げた。このベンチマークの基盤となるデータセットは、もともとOpenAIによってキュレーションされたものであり、44種類の異なる職業を網羅している。その結果は、現代の専門的なビジネス環境で直面する極めて高度なタスクを忠実に反映したものと言えるだろう。

「アーティフィシャル・アナリシス（Artificial Analysis）」という団体が、最新のAIテスト（GDPval-AA）で「クロードソネット 4.6」が1位になったと発表しました。このテストは、AIが人間のように複雑な仕事をどれくらい上手にできるかを調べる厳しいものです。驚くことに、中くらいのランクのモデルである「ソネット」が、一番高級なモデルである「オーパス（Opus） 4.6」を少しだけ上回る1633点（Eloレーティング）という高いスコアを取りました。これは、難しい問題に対してエネルギーをたくさん使ってじっくり考える「適応型思考モード（Adaptive Thinking Mode）」という新しい仕組みのおかげです。

しかし、この賢さを手に入れるために、AIはたくさんの「言葉のエネルギー」を消費しました。具体的には、2億8,000万個もの言葉の断片（トークン）を使いましたが、これは一つ前のモデル（Sonnet 4.5）の約5倍にあたります。面白いことに、一番高級なモデルである「オーパス 4.6」は、ソネットよりも40%も少ないエネルギーで同じ問題を解くことができました。つまり、新しいソネットは「エネルギーと時間はかかるけれど、最後まで粘り強く考え抜く力がすごい」という特徴を持っていることがわかりました。

そもそもこのテスト（GDPval-AA）は、データ分析や動画の編集といった、いくつもの手順が必要な仕事を、AIが自分一人でやり遂げる力（エージェント性能）を測るためのものです。AIは専用の道具（Stirrup）を使ってネットで調べ物をしたり、パソコンのシステム（シェルアクセス）を操作したりして、ただの話し相手（チャット）を超えて「自分で考えて動くロボット」のように進化しました。このテストの内容は、44種類のいろいろなお仕事に基づいて作られています。今回の結果は、AIがプロの大人が働く場所でも十分に通用するほど、とても高度な仕事ができるようになったことを示しています。

Claude Sonnet 4.6がGDPval-AAで首位に

人工知能の「クロード」が、一番難しい「お仕事テスト」で世界一になりました！

タグ