Mistral AIが「Devstral 2」を公開、コーディング特化型AIで世界最高水準の性能を達成
- •Mistral AIは、SWE-bench Verifiedで72.2%という驚異的な成功率を記録し、競合を凌駕する性能を持つ新LLM「Devstral 2」シリーズをリリースした。
- •一般のPCでも動作可能な24Bの軽量モデルを展開し、高いプライバシー保護と低コストを実現するローカル環境での高度な開発体験を提供する。
- •自律的にコードの探索や修正を行うAIエージェントツール「Vibe CLI」を導入し、ターミナルからの開発自動化を強力に支援する。
フランスのAIスタートアップであるMistral AIは、コーディングに特化した新たな大規模言語モデル(LLM)「Devstral 2」ファミリーを正式にリリースした。本シリーズの旗艦モデルである123Bモデルは、256Kという膨大なコンテキストウィンドウを備えており、極めて長いソースコードの構造を一度に把握することが可能である。性能面では、実際のソフトウェア開発における課題解決能力を測定するベンチマーク「SWE-bench Verified」において72.2%という驚異的な数値を記録した。これは、DeepSeek V3.2といった強力な競合モデルを上回る成果であり、オープンソースモデルとして世界トップクラスの地位を確立したと言える。
同社は大規模モデルと並行して、24Bパラメータを持つ「Devstral Small 2」も発表した。このモデルは軽量ながらも非常に高い効率性を備えており、高価なデータセンター向けサーバーを必要とせず、一般的な家庭用PC上でも動作させることが可能である。このようなコンパクトな基盤モデルの提供により、個々の開発者はクラウドサービスに依存することなく、機密性の高いコードを保護しながら低コストで強力なコーディングアシスタントをローカル環境で利用できるようになる。また、特定のプログラミング言語や独自の企業ワークフローに適合させる「ファインチューニング」にも柔軟に対応している。
さらに、開発者の利便性を飛躍的に向上させるオープンソースのターミナルツール「Vibe CLI」が導入された。このツールは、与えられた目標に対して自律的に行動を選択する「AIエージェント」として機能する。Vibe CLIはコードベース全体を自ら探索し、バグの修正や古いコードの更新のためにファイルを自動で編集することができる。これにより、開発者は煩雑な手作業から解放され、より本質的な設計業務に集中できる環境が整うこととなる。Mistral AIは、AIエージェントによるソフトウェア開発の自動化を民主化する狙いを鮮明にしている。
コストパフォーマンスの面でもDevstral 2は極めて優秀であり、評価によればClaude 3.5 Sonnetといった主要な競合モデルと比較して、大幅に優れた費用対効果を発揮している。人間の主観的な好みを反映したテストでは、一部のクローズドソースモデルに僅差で譲る場面もあるものの、オープンソースとしての自由度と技術的タスクにおける圧倒的な完遂能力は高く評価されている。今回のリリースは、開発者エコシステムに対してより強力な選択肢を提供するものであり、次世代のAI駆動型開発を加速させる重要な一歩となるだろう。