この記事の要点は？

清華大学の研究チームが、拡散モデルの自由なトークン生成順序が、不確実性の高い重要トークンの欠落を招き、推論能力を制限していることを発見。生成順序に適切な制約を加える新手法「JustGRPO」により、複雑な数学ベンチマークでの性能が大幅に向上した。 GSM8Kで89.1%の精度を達成しつつ、拡散モデル特有の高速な並列デコーディング能力も維持している。

拡散言語モデルの盲点：「柔軟性の罠」が推論を阻む

•清華大学の研究チームが、拡散モデルの自由なトークン生成順序が、不確実性の高い重要トークンの欠落を招き、推論能力を制限していることを発見。
•生成順序に適切な制約を加える新手法「JustGRPO」により、複雑な数学ベンチマークでの性能が大幅に向上した。
•GSM8Kで89.1%の精度を達成しつつ、拡散モデル特有の高速な並列デコーディング能力も維持している。

•清華大学の研究チームが、拡散モデルの自由なトークン生成順序が、不確実性の高い重要トークンの欠落を招き、推論能力を制限していることを発見。
•生成順序に適切な制約を加える新手法「JustGRPO」により、複雑な数学ベンチマークでの性能が大幅に向上した。
•GSM8Kで89.1%の精度を達成しつつ、拡散モデル特有の高速な並列デコーディング能力も維持している。

拡散言語モデル（dLLM）は、従来のモデルのような左から右への厳密な順序に縛られず、自由な順序でトークンを生成できる点が大きな特徴だ。しかし、清華大学のLeapLabの研究チームは、この自由さが逆に仇となる「柔軟性の罠（Flexibility Trap）」の存在を明らかにした。研究によると、dLLMに完全な自由を与えると、論理的思考に不可欠な「不確実性の高い難解なトークン」をスキップしてしまう傾向がある。その結果、解決策の探索範囲が早期に収束してしまい、数学やコーディングのような複雑なタスクで失敗を招くという。いわば、モデルが「楽な道」を選んでしまうことが問題なのだ。この課題を解決するため、チームは「JustGRPO」という手法を導入した。これは無秩序な生成順序をあえて制限し、Group Relative Policy Optimization（GRPO）と呼ばれる、複数の生成結果を比較してモデルの論理を洗練させる技術を適用したものだ。その結果、数学ベンチマークのGSM8Kで89.1%という高い精度を叩き出した。驚くべきは、この推論能力の向上と引き換えに速度を犠牲にしていない点だ。モデルは並列デコーディング能力を完全に保持しており、従来の自己回帰型モデルよりもはるかに高速にテキストを生成できる。「柔軟性を抑えることでAIがより賢くなる」というこの発見は、複雑な生成プロセスに頼りがちな現在の業界トレンドに一石を投じるものといえるだろう。

拡散言語モデルの盲点：「柔軟性の罠」が推論を阻む

タグ