Amazon SageMaker、推論効率とGPU確保を大幅強化
- •Flexible Training Plansの拡張により、期間指定の予約制で推論用GPU容量の確保が可能になった。
- •「EAGLE-3」投機的デコーディングが、モデルの隠れ層から次トークンを直接予測することでスループットを向上させた。
- •数千規模のLoRA (Low-Rank Adaptation)アダプタをオンデマンドで読み込む動的サポートにより、ハードウェア利用効率が最適化された。
Amazon SageMaker AIは、生成AI開発における最大の障壁である「GPU不足」と「高い推論コスト」を解決するためのインフラ・アップデートを発表した。なかでも注目すべきは、これまで学習用だった「Flexible Training Plans」が推論エンドポイントにも適用された点だ。これにより、特定のGPUインスタンスを一定期間予約できるようになり、製品ローンチなどの重要な局面で、不安定なオンデマンドの空き状況に左右されるリスクを回避できる。これは、プロジェクトの予算管理とリソース運用をより予測可能なものへと変える戦略的な転換といえる。
パフォーマンスの面では、高度な投機的デコーディング技術である「EAGLE-3」の導入により、レイテンシの劇的な短縮を図っている。EAGLE-3は、次に来るテキストを推測するために別の軽量なモデルを用いるのではなく、メインモデルの内部にある隠れ層から直接次のトークンを予測する。この手法は適応性が非常に高く、生成されるテキストの質を一切損なうことなく、スループットの向上とTTFTの削減を同時に実現した。
さらに、SageMakerは動的なLoRA (Low-Rank Adaptation)アダプタのロード機能を通じて、マルチテナントなワークロードをより効率的に処理できるようになった。すべてのカスタムモデルをメモリに常駐させるという極めて高コストな手法を排し、呼び出し(インボーク)があった際にのみストレージから読み込む方式を採用している。CPU、GPU、ディスクにわたる階層的なキャッシュ戦略により、開発者は単一のエンドポイントで数千ものパーソナライズされたモデルを運用可能になり、コストを最小限に抑えつつハードウェアの利用効率を最大化することに成功した。