データ品質の時代:AI学習効率を劇的に高める新アプローチ
2026年4月7日 (火)
- •MinerU2.5-Proがアーキテクチャの変更なしに最高性能の文書解析を実現
- •新データエンジンにより学習サンプル数を1000万から6550万へと拡大し効率を改善
- •モデルの巨大化ではなく、高品質かつ多様なデータの優先による大規模モデル超えの性能
AI業界はここ数年、モデルの巨大化という軍拡競争の渦中にあった。より高性能なモデルを作るには、計算資源とパラメータを増やすしかないというのが定説だったのだ。しかし、MinerU2.5-Proの研究チームが発表した成果は、これまでの常識が必ずしも正しくない可能性を示唆している。
研究者らは、文書をデジタルテキストに変換する文書解析モデルにおいて、モデルのサイズに関わらず同一の系統的なエラーが発生していることに注目した。これは学習データそのものに欠陥がある証拠であり、モデルを巨大化させるよりも、学習プロセスそのものを刷新することに勝機があると考えたのだ。
中核を成す「データエンジン」は、データを単なる材料ではなく設計対象として扱う。洗練されたサンプリング戦略を用いて学習データを6倍以上に拡充し、より多様で難易度の高い事例を学習させた。データの質を担保するため、複数のAIモデルが相互に推論結果を検証し合う手法も導入されている。
さらに、データ選定後の学習プロセスには三段階のステップを設けた。特に「Judge-and-Refine」パイプラインは、モデルが自ら試行錯誤して結果を検証・修正する人間的なプロセスを模倣している。これにより、複雑な文書に対しても極めて高い精度で対応可能となった。
このデータ中心の工学的なアプローチは圧倒的な成果を上げた。OmniDocBench v1.6において95.69というスコアを記録し、数百倍のパラメータを持つ競合モデルを打ち負かしたのである。計算能力による力技よりも、賢いデータエンジニアリングこそがAIの未来を切り拓くことを証明した。