Mistral AIが高精度文書処理モデル「Mistral OCR 3」を発表
- •Mistral AIは、従来比で74%の性能向上を実現し、手書き文字や複雑な表構造にも対応した最新モデル「Mistral OCR 3」を公開した。
- •1,000ページあたり2ドルという極めて高いコストパフォーマンスを実現し、PDFを即座に構造化データへ変換できる専用ツールも提供する。
- •自律的にタスクを実行するAIエージェントの基盤としての活用を見込み、機密保持を重視する企業向けにセルフホスティングにも対応した。
Mistral AIは、文書処理における精度とコスト効率の両立を極限まで追求した最新の光学文字認識モデル「Mistral OCR 3」を発表した。この新モデルは、特に難易度の高いスキャン済みのフォーム解析や、判読が困難な手書き文字の読み取りにおいて、前世代のモデルを74%も上回る圧倒的な勝率を記録している。一般的に、高度なOCR処理には膨大な計算資源が必要とされるが、Mistral OCR 3はモデルサイズを最適化することで、小規模な構成でありながら他社の大型モデルを凌駕するパフォーマンスを実現した。最大の特徴は、視覚的な情報をマークダウン形式や、埋め込みHTMLタグを用いた構造化データとして出力できる点にあり、これにより結合セルや複雑なヘッダーを持つ表構造も、レイアウトを崩さず忠実に再現することが可能となった。
開発環境の利便性も向上しており、APIを通じた統合のほか、ブラウザ上で直接PDFや画像を解析できる「Document AI Playground」が提供されている。このツールにより、専門的な知識がなくてもドラッグ・アンド・ドロップ操作だけで文書をマークダウンやJSON形式へと瞬時に変換できるようになった。この技術革新は、単なるテキスト変換に留まらず、自ら判断して複数のステップを実行する「自律型AIエージェント(Agentic AI)」の基盤としても極めて重要な役割を果たす。これまで「死んだデータ」として眠っていたPDFや画像内の情報を高精度にデジタル化することで、AIが論理的な推論を行うための信頼に足る知識源へと変貌させる。IDCのAI・自動化担当リサーチ・ディレクターを務めるティム・ロー氏は、高精度なデータ抽出こそが、企業の膨大なアーカイブに眠る価値を解き放つための最重要基盤であると高く評価している。
企業がAI導入を検討する際の大きな壁となるコスト面においても、Mistral AIは1,000ページあたり2ドルという極めて競争力の高い価格を提示している。さらに、数万ページ規模の膨大なバッチ処理を行う場合には大幅なボリュームディスカウントが適用される仕組みとなっており、運用の経済性が考慮されている。また、機密性の高い文書を扱う金融や医療といった分野のニーズに応え、自社専用のインフラ内でモデルを稼働させるセルフホスティングのオプションも完備した。これにより、機微な情報が外部ネットワークに流出するリスクを最小限に抑えつつ、最先端のAI技術を業務フローに組み込むことができる。この柔軟な提供形態と圧倒的な処理能力は、行政手続きや企業のバックオフィス業務における大規模な自動化を加速させる強力な原動力となるだろう。