AMD、強化学習フレームワーク「Miles」への対応を正式発表
- •Miles強化学習フレームワークが、AMD Instinct MI300およびMI350 GPU向けのROCmをサポートした。
- •分離型アーキテクチャの採用により、強化学習特有のメモリ負荷が高いロールアウトフェーズを最適化した。
- •性能テストでは、マルチターン推論やエージェントによる数学タスクの精度が大幅に向上している。
強化学習(RL)は、かつての限定的な実験段階を脱し、現代のAI基盤モデル開発における中核へと進化した。事前学習で得られた知識の土台の上に、強化学習などのポストトレーニング技術を適用することで、モデルは複雑な推論やデジタルツールの操作、そして一貫した対話能力を身に付ける。こうしたプロセスを大規模に支援するため、オープンソースのMilesフレームワークがAMDのソフトウェアスタックであるROCmへの正式対応を開始した。これにより、研究者はAMD Instinct MI300およびMI350シリーズを活用し、負荷の高い強化学習ワークフローをネイティブに実行できるようになる。
標準的なモデル学習と異なり、強化学習に特有なのが「ロールアウト(Rollout)」フェーズだ。この段階では、モデルが最適な回答を見つけ出すために数千もの試行的な応答を生成するが、多くのパイプラインでは計算時間の最大90%がこのフェーズに費やされる。このプロセスは極めて高いメモリ帯域を必要とするため、大容量の高帯域幅メモリ(HBM)を誇るAMDのハードウェアは非常に適している。Milesはデータ生成(ロールアウト)と実際の重み更新(学習)を分離する「分離型アーキテクチャ」を採用しており、大規模なクラスター環境においてもハードウェアリソースを最大限に効率化することが可能だ。
Pythonインタープリタを用いて数学問題を解くといった「エージェント型タスク」の初期ベンチマークでは、すでに有望な結果が示されている。学習が進むにつれて、モデルは解答に至るまでの複数ステップの推論をより正確にこなせるようになった。このようなロールアウト重視の最適化は、単に答えを推測するだけでなく、推論の途中で自ら検証・修正を行う次世代AIエージェントの実現に不可欠な要素である。AMDとMilesチームによる今回の連携は、大規模なAI開発において独自の垂直統合型ハードウェアに対抗し得る強力なオープンソースの選択肢を提供し、エコシステムをより強固なものにするだろう。