Salesforce、AIエージェント向け学習スタック「SFR-RL」発表
- •Salesforce AI Researchが、マルチターンのエージェントワークフローに最適化された学習スタック「SFR-RL」を発表した。
- •新たに導入された「パイプライン同期」アプローチにより、従来の学習フレームワークと比較して10倍のメモリ効率を実現している。
- •わずか16基のGPUで、1200億パラメータのMoEモデルを100万トークンのコンテキスト長で学習させることが可能になった。
単なるチャット形式のやり取りから、モデルがツールを使い、ウェブを閲覧し、コードを実行する「エージェント型」AIへの移行は、学習インフラに極めて大きな課題を突きつけている。現在の強化学習システムは、複雑で長時間のタスク完了を待つ間にGPUがアイドル状態になる「ストラグラ(遅延者)」問題に直面することが少なくない。Salesforce AI Researchは、このボトルネックを解消するために、高度に複雑な環境向けに特化して設計された新しい学習スタック「SFR-RL」を開発した。
SFR-RLは、低速な同期学習か不安定な非同期更新のどちらかを選択せざるを得なかった既存の手法とは異なり、「パイプライン同期(pipelined synchronous)」という画期的な手法を導入している。このシステムは、モデルがアクションを生成するロールアウトフェーズと、それらの結果から学習を行うトレーニングフェーズを交互に繰り返す。GPUクラスター全体で推論エンジンと学習状態の間でモデルを入れ替えることにより、ハードウェアの稼働率をほぼ100%に維持しつつ、高品質な学習に不可欠な安定性を確保することに成功した。
特に注目すべきは、Mixture-of-Experts(MoE)アーキテクチャの扱いである。MoEは計算リソースを節約するために、タスクごとにネットワークの特定の「エキスパート」部分のみを活性化させる手法だ。SFR-RLは「エキスパート並列化(EP)」を用いてこれらのコンポーネントを効率的に分散し、1200億パラメータという巨大なモデルであっても、わずか16基のH200 GPUで100万トークンのコンテキストウィンドウを処理することを可能にした。これは、以前のオープンソースフレームワークと比較して、スループットとメモリ効率の両面で飛躍的な飛躍を意味している。