AWS、競技プログラミングに特化したAIを訓練
2026年2月24日 (火)
- •AWSが複雑な競技プログラミングに最適化された70億パラメータのモデル「CodeFu-7B」を発表。
- •コード実行のフィードバックを通じて推論力を高める「グループ相対方策最適化 (GRPO)」を採用。
- •SageMakerとRayを統合し、マルチノードGPUクラスターによる分散強化学習を実現。
アマゾン ウェブ サービス(AWS)は、真のアルゴリズム推論を可能にする特化型AIモデルの高度な訓練手法を公開した。従来の標準的なモデルがパターンの記憶に依存しがちなのに対し、新しい「CodeFu-7B」モデルは試行錯誤を通じて競技プログラミングの問題を解くことで学習を深める。このプロセスは強化学習によって支えられており、生成されたコードが実際に動作し、正確な出力を得られたかどうかに基づいて報酬が与えられる仕組みだ。
膨大な計算リソースを管理するため、AWSはSageMaker上でRayフレームワークを運用している。この構成により、強力なGPUクラスターを協調させ、コードのコンパイルから結果の評価までをリアルタイムで制御することが可能となった。特に「グループ相対方策最適化 (GRPO)」という手法の導入により、学習プロセスの安定化に成功した。これはモデルによる複数の試行を比較して最も効率的な論理を特定するもので、一問の数学の問題を多様な解法で検討しながら実力を高める学生のような学習プロセスと言える。
このアーキテクチャは、プログラミングにおける評価の自動化に焦点を当てている。人間がコードを一行ずつ採点するのではなく、自動テストケースが即座にフィードバックを返す。コードがコンパイルエラーを起こしたり実行速度が不足したりすれば、モデルにペナルティが課され、次の試行で戦略の修正が促される。この自動フィードバックループの確立により、AIは単なるテキスト生成を超えた深い問題解決能力を獲得した。これは、自律的なソフトウェア開発の実現に向けた重要な進展である。