AWS、大規模モデル推論の速度と効率を大幅向上
- •AWS LMIコンテナがLMCacheを導入し、最初のトークン生成時間を最大62%短縮した。
- •新たに統合されたEAGLE投機的デコーディングにより、将来の出力を予測して生成を加速させた。
- •DeepSeekやMistral、Qwenモデルへのサポートを拡大し、LoRAアダプタの管理効率も改善した。
大規模なAIモデルの導入は、プロンプトが長くなるほどコストが増大する傾向にあるが、Amazon Web Services (AWS) は最新のLarge Model Inference (LMI) コンテナのアップデートによってこの課題を解決しようとしている。今回の目玉となる「LMCache」は、過去の計算結果(KVキャッシュ)を数学的表現として保存・再利用するオープンソースツールだ。これにより、すべての単語をゼロから計算し直すのではなく、繰り返されるテキストブロックをRAMやNVMeディスクなどの高速ストレージから引き出すことが可能になった。実際に、同じ文脈を繰り返し使用するコーディングアシスタントや文書解析ツールにおいて、この手法は極めて高い効果を発揮する。
キャッシングに加えて、AWSは「EAGLE投機的デコーディング」を統合した。これは、メインモデルがバックグラウンドで検証を行う間に次の単語を予測し、レスポンス時間を短縮する巧みな技術である。この予測と検証のループによって、出力の質を落とすことなくテキスト生成を高速化できる。また、開発者が微調整したモデル(LoRAアダプタ)の管理も簡素化された。必要な時だけロードする「遅延読み込み(Lazy Loading)」を採用したことで、マルチテナント環境でのメモリ消費と起動時間を大幅に削減することに成功したのだ。
さらに、DeepSeek v3.2やMistral Large 3といった最先端のオープンソースモデルへのサポートも拡大されている。これらの機能強化は、高性能なAIを運用する際の障壁を大幅に下げることになるだろう。特定のシナリオではリクエストあたりの計算コストを半減させることも可能であり、組織が複雑なAIアプリケーションを拡張する際の現実的な選択肢となる。今回のリリースにより、高度な技術力を持たない企業であっても、ローコードの自動設定を通じてエンタープライズ級のスピードと効率を享受できるようになった。