UCバークレー、拡散言語モデルの統合フレームワーク「dLLM」を公開
- •UCバークレーが、拡散言語モデルの学習・推論・評価を統合するフレームワーク「dLLM」を発表した。
- •新たな「Fast-dLLM」の統合により、ブロック単位のキャッシュと並列デコード技術を用いて2〜4倍の高速化を実現した。
- •ModernBERTやQwen3などの既存モデルを、最小限の計算資源で拡散ベースのチャットシステムへ変換することに成功した。
左から順に一語ずつ予測する自己回帰モデルが現在のAI界を席巻しているが、テキストシーケンス全体を同時に洗練させる拡散言語モデル(DLM)が有望な代替案として注目されている。しかし、これまではコードベースの断片化や評価手法の不一致が、開発の進展を妨げる要因となっていた。こうした課題に対し、カリフォルニア大学バークレー校(UC Berkeley)の研究チームは、大規模・小規模両方のアプリケーションに向けた拡散ベースのモデリングを標準化する、包括的なオープンソースフレームワーク「dLLM」をリリースした。
dLLMは、モデルのアーキテクチャとテキスト生成のためのサンプリングアルゴリズムを分離した、プラグアンドプレイ方式の推論システムを導入している。この柔軟な設計により、複数のトークンを並列に予測し、計算済みのデータを再利用する「KVキャッシュ」を活用した高速化技術「Fast-dLLM」の実装が可能となった。また、厳格な線形順序でデコードを行う従来のモデルとは異なり、生成過程でトークンがシーケンス全体にわたってどのように進化するかを視覚化するツールも備えており、一貫性のある言語生成のプロセスを詳しく解析できる。
実用性のデモンストレーションとして、研究チームは既存のエンコーダー専用モデルや標準的な自己回帰システムを拡散ベースのチャットボットへと変換した。特に「ModernBERT-large-chat」のバリアントは、非伝統的な構造でありながら、推論ベンチマークにおいて複数の一般的な小規模モデルを上回る性能を示している。再現可能なレシピと事前学習済みチェックポイントを提供することで、dLLMプロジェクトは、より効率的で柔軟な言語生成に向けた有力な道筋として、研究者が拡散モデルを探索する障壁を大きく下げたといえる。