この記事の要点は？

SpargeAttention2は95%のアテンション疎性を達成しつつ、高品質な生成を実現した Top-kとTop-pを組み合わせたハイブリッドマスキングにより、生成時の細部欠落を防止する動画拡散モデルにおいて、アテンション演算の速度を最大16.2倍まで向上させた

SpargeAttention2、拡散モデルの生成速度を16倍に向上

•SpargeAttention2は95%のアテンション疎性を達成しつつ、高品質な生成を実現した
•Top-kとTop-pを組み合わせたハイブリッドマスキングにより、生成時の細部欠落を防止する
•動画拡散モデルにおいて、アテンション演算の速度を最大16.2倍まで向上させた

中国の清華大学（Tsinghua University）の研究チームは、画像や動画生成AIの基盤となる「拡散モデル」を劇的に高速化する新手法「SpargeAttention2」を発表した。従来の高速化手法では視覚的品質が著しく低下することが課題だったが、本手法はアテンション機構に伴う計算量の95%を削減しながらも、極めて忠実度の高い生成結果を維持することに成功している。

このブレイクスルーの鍵は、テキストプロンプトや動画フレームのどの部分が最終的な出力に重要かを識別する「ハイブリッドマスキング」戦略にある。上位一定数の要素を選択する「Top-k」と、累積確率に基づいて選択する「Top-p」という2つの異なる選択ルールを組み合わせることで、システムの堅牢性が大幅に向上した。これにより、計算コストを抑えようとしてAIが重要な詳細を無視してしまうといった、従来の簡易的なモデルで頻繁に見られた不具合が防がれている。

さらにモデルを洗練させるため、清華大学の研究者であるジンタオ・チャン(Jintao Zhang)氏らのチームは、ファインチューニングの過程で「知識蒸留」を採用した。これは師弟関係のような手法であり、効率的な「疎（スパース）」モデルが、圧縮前のフルサイズモデルが生成する正確な出力を模倣するように学習するものである。実際に動画拡散モデルを用いたテストでは、アテンション計算において驚異的な16.2倍の高速化を記録しており、標準的なハードウェアでも高品質なAI動画をほぼ瞬時に生成できる未来を切り拓いた。

中国の清華大学（Tsinghua University）の研究チームは、画像や動画生成AIの基盤となる「拡散モデル」を劇的に高速化する新手法「SpargeAttention2」を発表した。従来の高速化手法では視覚的品質が著しく低下することが課題だったが、本手法はアテンション機構に伴う計算量の95%を削減しながらも、極めて忠実度の高い生成結果を維持することに成功している。

このブレイクスルーの鍵は、テキストプロンプトや動画フレームのどの部分が最終的な出力に重要かを識別する「ハイブリッドマスキング」戦略にある。上位一定数の要素を選択する「Top-k」と、累積確率に基づいて選択する「Top-p」という2つの異なる選択ルールを組み合わせることで、システムの堅牢性が大幅に向上した。これにより、計算コストを抑えようとしてAIが重要な詳細を無視してしまうといった、従来の簡易的なモデルで頻繁に見られた不具合が防がれている。

さらにモデルを洗練させるため、清華大学の研究者であるジンタオ・チャン(Jintao Zhang)氏らのチームは、ファインチューニングの過程で「知識蒸留」を採用した。これは師弟関係のような手法であり、効率的な「疎（スパース）」モデルが、圧縮前のフルサイズモデルが生成する正確な出力を模倣するように学習するものである。実際に動画拡散モデルを用いたテストでは、アテンション計算において驚異的な16.2倍の高速化を記録しており、標準的なハードウェアでも高品質なAI動画をほぼ瞬時に生成できる未来を切り拓いた。

SpargeAttention2、拡散モデルの生成速度を16倍に向上

タグ