この記事の要点は？

AnthropicのClaude Opus 4.5が、2026年2月のSWE-bench Verifiedリーダーボードで首位を獲得した。 MiniMax M2.5やGLM-5など中国製モデルが健闘し、GoogleやOpenAIといった大手の牙城を崩しつつある。 OpenAIのGPT-5.2は6位にとどまり、特化型のGPT-5.3-CodexはAPI未対応のためランク外となった。

Claude Opus 4.5がSWE-benchの首位に

•AnthropicのClaude Opus 4.5が、2026年2月のSWE-bench Verifiedリーダーボードで首位を獲得した。
•MiniMax M2.5やGLM-5など中国製モデルが健闘し、GoogleやOpenAIといった大手の牙城を崩しつつある。
•OpenAIのGPT-5.2は6位にとどまり、特化型のGPT-5.3-CodexはAPI未対応のためランク外となった。

ソフトウェアエンジニアリングのベンチマークであるSWE-benchが最新のリーダーボードを更新し、ラボが自己報告するデータの偏りを排除した客観的なモデル性能が明らかになった。今回の評価は、人気オープンソースリポジトリから手動で厳選された500件の実践的な課題を用いる「SWE-bench Verified」の「Bash Only」トラックに焦点を当てている。その結果、欧米の業界大手に対し、新興のグローバルラボが激しく追い上げる勢力図の変化が浮き彫りとなった。

驚くべきことに、AnthropicのClaude Opus 4.5が後継のOpus 4.6を僅差で上回り、首位の座を射止めた。これに続くのがGoogleのGemini 3 Flash、そして中国の2,290億パラメータを誇るMiniMax M2.5である。ほかにもGLM-5やKimi K2.5、DeepSeek V3.2といった複数の中国製モデルがトップ10にランクインしており、専門的なコーディング・インテリジェンスや自律的な問題解決能力における技術格差が急速に縮まっていることが伺える。

一方、OpenAI勢は予想を下回る結果となり、GPT-5.2は6位にとどまった。アナリストによれば、プログラミング特化型モデルのGPT-5.3-Codexが不在なのは、標準API経由でまだ提供されていないことが主な要因だと推測されている。なお、比較の公平性を期すため、ベンチマーク側で全モデルに統一されたシステムプロンプトが採用されており、プロンプト・エンジニアリングの影響を排した純粋な推論能力が測定された。

開発者が複雑なコードベースの管理をAIに委ねる機会が増える中、こうした独立したテストによる検証は極めて重要である。DjangoやScikit-learnといった実際のプロジェクトの課題を用いて評価することで、本番環境におけるツールの実用性をより正確に把握できるからだ。厳格な評価と実戦的な応用を融合させたこのベンチマークは、自律型開発アシスタントの進化における大きな節目となるだろう。

ソフトウェアエンジニアリングのベンチマークであるSWE-benchが最新のリーダーボードを更新し、ラボが自己報告するデータの偏りを排除した客観的なモデル性能が明らかになった。今回の評価は、人気オープンソースリポジトリから手動で厳選された500件の実践的な課題を用いる「SWE-bench Verified」の「Bash Only」トラックに焦点を当てている。その結果、欧米の業界大手に対し、新興のグローバルラボが激しく追い上げる勢力図の変化が浮き彫りとなった。

驚くべきことに、AnthropicのClaude Opus 4.5が後継のOpus 4.6を僅差で上回り、首位の座を射止めた。これに続くのがGoogleのGemini 3 Flash、そして中国の2,290億パラメータを誇るMiniMax M2.5である。ほかにもGLM-5やKimi K2.5、DeepSeek V3.2といった複数の中国製モデルがトップ10にランクインしており、専門的なコーディング・インテリジェンスや自律的な問題解決能力における技術格差が急速に縮まっていることが伺える。

一方、OpenAI勢は予想を下回る結果となり、GPT-5.2は6位にとどまった。アナリストによれば、プログラミング特化型モデルのGPT-5.3-Codexが不在なのは、標準API経由でまだ提供されていないことが主な要因だと推測されている。なお、比較の公平性を期すため、ベンチマーク側で全モデルに統一されたシステムプロンプトが採用されており、プロンプト・エンジニアリングの影響を排した純粋な推論能力が測定された。

開発者が複雑なコードベースの管理をAIに委ねる機会が増える中、こうした独立したテストによる検証は極めて重要である。DjangoやScikit-learnといった実際のプロジェクトの課題を用いて評価することで、本番環境におけるツールの実用性をより正確に把握できるからだ。厳格な評価と実戦的な応用を融合させたこのベンチマークは、自律型開発アシスタントの進化における大きな節目となるだろう。

Claude Opus 4.5がSWE-benchの首位に

タグ