AWSとllm-d、非集約型AI推論を導入
- •AWSとllm-dは、大規模モデルのプリフィルとデコードのフェーズを分離して最適化する「非集約型推論」を導入した。
- •Kubernetesネイティブな新フレームワークにより、GPU利用率の向上と、複雑なエージェント型AIワークフローのコスト削減を実現する。
- •AWSとのネイティブ統合により、高速なRDMA転送や混合専門家モデル向けの専門家並列化をサポートする。
AIをプロトタイプから本番環境へとスケールアップする際、最大の壁となるのが推論効率だ。従来のシステムではモデルのサービングを一連のタスクとして処理していたが、実際にはプロンプトを読み込む「プリフィル」フェーズと、単語を逐次生成する「デコード」フェーズでは、必要とされるハードウェアリソースが根本的に異なる。これに対しAWSは、llm-dチームと提携して「非集約型推論」をクラウドインフラに導入した。この手法は、各タスクを専用のGPUクラスターに分散させることで、計算負荷の高いプロンプト処理がメモリ集約的な生成プロセスのボトルネックになるのを防ぐ仕組みである。
llm-dフレームワークは、Amazon EKSやSageMaker HyperPodといったKubernetes環境に特化して設計されている。特に注目すべきは、高度なスケジューラによって「KVキャッシュ」のローカリティを管理している点だ。これにより会話の文脈を効率的に保持し、モデルによる冗長な再計算を回避できる。また、高性能ネットワークとNIXLライブラリを組み合わせることで、ノード間でのキャッシュデータの超高速移動を実現した。これは、最終回答に至るまでに膨大な推論ステップを必要とするエージェント型AIにおいて、極めて重要な役割を果たす。
さらに、巨大な混合専門家(Mixture-of-Experts)モデルを運用する組織に向けて、llm-dは専門家並列化(Expert Parallelism)を提供する。この技術は大規模なモデルの構成要素を複数のサーバーへ最適に分散させ、遅延を最小限に抑えながらシームレスな連携を可能にするものだ。AIがより複雑で多段階のワークフローへと進化する中、こうしたインフラレベルの最適化こそが、実用性の低いチャットボットと、真に快適なリアルタイムエージェントを分かつ決定的な差となるだろう。