マルチモーダルAI、テキストの画像認識に苦戦
2026年3月11日 (水)
- •テキストを画像として処理する際とトークンで処理する際の性能差である「モダリティ・ギャップ」が判明した。
- •フォントや解像度の変化により、画像上のテキスト認識精度が最大47ポイント低下することが明らかになった。
- •自己蒸留技術の導入により、画像ベースの数学的推論精度が30.71%から92%超へと劇的に向上した。
マルチモーダル大規模言語モデル(MLLM)は視覚データの解釈能力に優れるとされるが、情報の処理過程には根本的な乖離が存在する。テキストがデジタル・トークンではなく、スクリーンショットなどの生のピクセルとして提示されると、モデルの性能は大幅に低下する傾向にある。この現象は「モダリティ・ギャップ」と呼ばれ、最先端のシステムであっても、視覚的知覚と論理的分析の間の溝を埋めることに苦慮している実態を浮き彫りにした。
主要な7つのMLLMを対象とした調査では、このギャップがフォーマットに対して極めて敏感であることが示された。フォントや解像度のわずかな変更が、正解率を最大47ポイントも変動させる要因となっている。興味深いことに、モデルは知識自体を失うわけではなく、視覚的入力を受けた際に「推論の崩壊」を引き起こしている。これは知能の欠如ではなく、初期の「読み取り」段階での失敗が、その後の論理的思考を妨げていることを示唆している。
この課題に対し、研究チームはモデルが自らの優れた成果から学ぶ「自己蒸留」という手法を導入した。テキストベースの論理展開と対応する画像入力をペアにして学習させることで、入力形式に依存せず論理的フローを維持させることに成功した。数学ベンチマークであるGSM8Kにおいて、画像モードの精度を30%から92%以上へと飛躍させたこの成果は、次世代AIが視覚とテキストを同等に扱い、複雑な文書をより正確に分析できる可能性を示している。