MARS:自己回帰モデルの生成速度を加速させる新手法
HuggingFace
2026年4月9日 (木)
- •MARSはモデル構造を変更することなく、自己回帰モデルが複数のトークンを同時に予測することを可能にする。
- •本手法により、ベースラインと同等の精度を維持しつつ、1.5〜1.7倍のスループット向上を実現した。
- •推論時の信頼度閾値を用いることで、リアルタイムに生成速度を動的に調整できる。
自己回帰モデルを用いたテキスト生成は、次に来る単語を一つずつ順次予測する仕組み上、長らく展開におけるボトルネックとなっていた。モデルの性能は非常に高いものの、一度に一つのトークンしか生成できないという性質が、ユーザーが即時性を求める場面での遅延問題を引き起こしている。
南洋理工大学の研究チームは、この制約を回避するための新しいファインチューニング手法「MARS(Mask AutoRegression)」を導入した。これは、一度の計算パスで複数のトークンを予測するようモデルを訓練するアプローチである。
MARSの最大の特徴は、その卓越したシンプルさにある。既存の投機的デコーディングやマルチヘッド構造とは異なり、モデル本体の構造変更や追加パラメータを一切必要としない。これにより、既存のチェックポイントとの高い互換性を維持したまま、軽量な学習プロセスとして導入が可能だ。
パフォーマンスの向上も顕著であり、標準的なタスクにおいて1.5倍から1.7倍のスループットを実現した。さらに、チームはブロックレベルのKV Caching戦略も採用しており、バッチ推論シナリオにおける処理速度を大幅に引き上げている。これはQwen2.5-7Bなどのモデルで実証されており、ハードウェアの増強に頼らず、アルゴリズムの工夫で効率化が可能であることを示している。
実用面における利点は、リアルタイムな速度調整機能にある。信頼度閾値メカニズムを活用することで、システム負荷に応じて単一トークン出力と複数トークン出力を柔軟に切り替えることが可能だ。これは「遅延と精度の調整スイッチ」として機能し、管理者はシステムを再起動することなく、需要に応じてパフォーマンスを最適化できる。