この記事の要点は？

Q: この記事の要点は？

MARSはモデル構造を変更することなく、自己回帰モデルが複数のトークンを同時に予測することを可能にする。 本手法により、ベースラインと同等の精度を維持しつつ、1.5〜1.7倍のスループット向上を実現した。 推論時の信頼度閾値を用いることで、リアルタイムに生成速度を動的に調整できる。

MARSはモデル構造を変更することなく、自己回帰モデルが複数のトークンを同時に予測することを可能にする。本手法により、ベースラインと同等の精度を維持しつつ、1.5〜1.7倍のスループット向上を実現した。推論時の信頼度閾値を用いることで、リアルタイムに生成速度を動的に調整できる。

MARS：自己回帰モデルの生成速度を加速させる新手法

•MARSはモデル構造を変更することなく、自己回帰モデルが複数のトークンを同時に予測することを可能にする。
•本手法により、ベースラインと同等の精度を維持しつつ、1.5〜1.7倍のスループット向上を実現した。
•推論時の信頼度閾値を用いることで、リアルタイムに生成速度を動的に調整できる。

•MARSはモデル構造を変更することなく、自己回帰モデルが複数のトークンを同時に予測することを可能にする。
•本手法により、ベースラインと同等の精度を維持しつつ、1.5〜1.7倍のスループット向上を実現した。
•推論時の信頼度閾値を用いることで、リアルタイムに生成速度を動的に調整できる。

自己回帰モデルを用いたテキスト生成は、次に来る単語を一つずつ順次予測する仕組み上、長らく展開におけるボトルネックとなっていた。モデルの性能は非常に高いものの、一度に一つのトークンしか生成できないという性質が、ユーザーが即時性を求める場面での遅延問題を引き起こしている。

南洋理工大学の研究チームは、この制約を回避するための新しいファインチューニング手法「MARS（Mask AutoRegression）」を導入した。これは、一度の計算パスで複数のトークンを予測するようモデルを訓練するアプローチである。

MARSの最大の特徴は、その卓越したシンプルさにある。既存の投機的デコーディングやマルチヘッド構造とは異なり、モデル本体の構造変更や追加パラメータを一切必要としない。これにより、既存のチェックポイントとの高い互換性を維持したまま、軽量な学習プロセスとして導入が可能だ。

パフォーマンスの向上も顕著であり、標準的なタスクにおいて1.5倍から1.7倍のスループットを実現した。さらに、チームはブロックレベルのKV Caching戦略も採用しており、バッチ推論シナリオにおける処理速度を大幅に引き上げている。これはQwen2.5-7Bなどのモデルで実証されており、ハードウェアの増強に頼らず、アルゴリズムの工夫で効率化が可能であることを示している。

実用面における利点は、リアルタイムな速度調整機能にある。信頼度閾値メカニズムを活用することで、システム負荷に応じて単一トークン出力と複数トークン出力を柔軟に切り替えることが可能だ。これは「遅延と精度の調整スイッチ」として機能し、管理者はシステムを再起動することなく、需要に応じてパフォーマンスを最適化できる。