MinerU-Diffusion:並列拡散デコーディングでOCRを高速化
2026年3月25日 (水)
- •MinerU-Diffusionは、逐次的なテキスト生成を並列の拡散デノイジングに置き換えることで、ドキュメントOCRを3.2倍高速化した。
- •新しいブロック単位のデコーダー・アーキテクチャにより、長いシーケンスや複雑なレイアウトの安定した処理を可能にしている。
- •言語的な先入観への依存を減らすことで、Semantic Shuffleベンチマークにおいて優れた堅牢性を達成した。
ドキュメントを読み取る従来のシステムは、通常、文字や単語を一つずつ予測することでテキストの画像をデジタルデータへと変換する。この自己回帰的デコーディングと呼ばれる逐次的なアプローチは効果的ではあるものの、初期の段階で生じた一つの誤りがその後のテキスト全体に波及する「エラー伝搬」を引き起こしやすい。その結果、特に長文ファイルの処理速度が著しく低下するという課題を抱えていた。
MinerU-Diffusionは、ドキュメントの変換を一種の逆レンダリングタスクとして捉え直すことで、この分野にパラダイムシフトをもたらした。このモデルは左から右へと順番に読み取るのではなく、拡散ベースのフレームワークを活用し、並列デノイジングを通じてドキュメント全体の内容を同時に生成する。この手法により、あたかも画家が素描を完成した絵画へと仕上げていくように、ページ全体のテキストとレイアウトを一度に洗練させることが可能になった。
本フレームワークには、専用のブロック単位デコーダーと、簡単なタスクから段階的に難易度を上げるカリキュラム学習戦略が採用されている。これらの技術革新により、従来のモデルと比較して3.2倍の高速化を実現した。さらに、予測可能な言語パターンよりも視覚的な手がかりを重視することで、MinerU-Diffusionは密集した表や数式、不規則な構造を持つドキュメントの解析において、極めて高い精度を発揮する。