Baidu、高度な文書解析を実現する「Qianfan-OCR」を発表
- •Baiduが、文書解析とレイアウト分析を統合した40億パラメータのモデル「Qianfan-OCR」を導入。
- •テキスト出力の前に構造情報を生成する「Layout-as-Thought」機構により、精度の高い解析を実現。
- •OmniDocBenchなどで首位を獲得し、Gemini-3.1-Proなどの大規模モデルを上回る性能を実証。
Baiduは、文書インテリジェンスの複雑なプロセスを効率化するために設計された、40億パラメータの特化型視覚言語モデル「Qianfan-OCR」を発表した。従来、PDFや画像から情報を抽出するには、レイアウト特定、テキスト認識、データの構造化という複数のステップが必要だったが、本モデルはこれらを単一のアーキテクチャに統合している。このエンドツーエンドのアプローチにより、画像からMarkdownへの直接変換や複雑な表抽出といったタスクを、一貫したワークフローで完結させることが可能となった。
本モデルの革新性は「Layout-as-Thought」機構にある。これは特別な「思考トークン(think tokens)」を用いて内部的な推論フェーズを起動し、最終的なテキストを出力する前に、バウンディングボックスや読取順序などの構造化されたレイアウト表現を生成する仕組みだ。文書の構造をまず可視化(グラウンディング)することで、標準的なAIが混乱しがちな複雑なレイアウトにおけるエラーを大幅に抑制した。このモジュール化された思考プロセスは、多段階の処理で課題となる遅延を抑えつつ、極めて高い精度を保証している。
性能評価において、Qianfan-OCRはOmniDocBench v1.5やOlmOCR Benchといった主要ベンチマークで首位を獲得した。驚くべきことに、この40億パラメータのモデルは、Key Information Extraction (KIE) タスクにおいてGemini-3.1-ProやQwen3-VL-235Bといった超大規模な競合モデルを凌駕する性能を見せている。現在はBaiduのAI Cloudを通じて提供されており、言語能力と構造把握能力を高度に両立させた、より効率的な専門特化型マルチモーダルモデルへの重要な転換点となるだろう。