AWSとvLLM、AI推論効率を大幅に向上
2026年2月25日 (水)
- •AWSとvLLMの提携により、Mixture of Experts(MoE)モデルでの効率的なMulti-LoRA運用が可能になった。
- •新たなカーネル最適化により、GPT-OSSモデルでトークンスループットが19%向上、レイテンシが8%低減した。
- •Multi-LoRAの活用で数十のカスタムモデルを1つのGPUに集約でき、インフラコストを大幅に削減できる。
多くのカスタムAIモデルを運用する組織にとって、十分なトラフィックがないためにハードウェアが活用されない「GPUのアイドル状態」は、極めて高コストな課題だ。これを受け、AWSはvLLMコミュニティと共同で、GPT-OSSやQwenなどのMixture of Experts(MoE)モデル向けにMulti-LoRAを最適化した。このアプローチでは、大規模なベースモデルを固定したまま、特定のタスクに特化した小さな「アダプター」をGPUメモリ上で即座に切り替えることで、個々のリクエストに応じた柔軟な対応を実現している。
技術的な進展として、エキスパートのルーティングとアダプターの選択という2つの疎性(スパース性)を同時に制御する「fused_moe_lora」カーネルが開発された。GPU上での行列演算を最適化することで、これまでの性能的なボトルネックが解消されている。また、前の計算が終わる前に次の準備を開始する「Programmatic Dependent Launch」を導入したことで、AIのレスポンスを遅らせる要因となっていた待機時間を事実上排除することに成功した。
ベンチマーク結果によれば、GPT-OSS 20Bモデルにおいて出力速度が19%向上し、生成開始までの時間(Time to First Token)も8%短縮された。これにより、Amazon SageMaker AIやAmazon Bedrockを利用する開発者は、性能を維持したまま1つのGPUを複数の顧客で共有できるようになる。このアップデートは、非効率だったハードウェアを、パーソナライズされた大規模AIのための低コストで強力なエンジンへと変貌させるものだ。