BabyVision: 最新AIの基礎的視覚推論における深刻な欠陥が判明
- •3歳児レベルの基礎的な視覚課題において、最新のマルチモーダル大規模言語モデル(MLLM)が苦戦していることがBabyVisionベンチマークにより判明した。
- •Gemini 3 Proのスコアは49.7にとどまり、6歳の子供の成績や大人の平均値(94.1)を大きく下回る結果となった。
- •研究チームは評価ツールキットとともに、AIの視覚推論能力向上を目指す生成的アプローチ「BabyVision-Gen」を公開した。
UniPat-AI所属のAI研究者であるLiang Chen氏らが率いる研究グループは、最新のマルチモーダル大規模言語モデル(MLLM)における基礎的な視覚推論能力の欠如を露呈させる新しいベンチマーク「BabyVision」を発表した。人間は言語を習得する前の乳幼児期から基本的な視覚能力を発達させていくが、現在のAIモデルは多くの場合、膨大な学習データに含まれる言語的な知識(言語的プライア)に依存しており、それが真の視覚的理解の脆さを覆い隠している。この新たな評価手法は、言語的なヒントに頼ることなく、純粋な視覚情報の処理能力を測定することを目的としている。具体的には、22のカテゴリーにわたる388のタスクを通じて、3歳児であれば容易に解けるような物体認識や空間配置の把握といった基礎知能が試される。
実験の結果、AIモデルと人間の間には驚くべき能力の差があることが浮き彫りになった。Googleの最先端モデルであるGemini 3 Pro-Previewのスコアは49.7ポイントにとどまり、これは6歳の子供の平均的な成績を大幅に下回るだけでなく、大人の平均スコアである94.1ポイントの半分程度という低い数値であった。この結果は、現在のMLLMが高度な知識を必要とするタスクでは優れたパフォーマンスを示す一方で、人間が直感的に行っている基礎的な視覚推論においては、幼い子供のレベルにすら達していないことを明確に示している。AIは単純なパターンマッチングには長けているが、画像内の要素を論理的に結びつけてシーン全体を解釈する「推論」のプロセスにおいて、根本的な課題を抱えていることが判明した。
研究チームは、こうしたAIの視覚能力における限界を克服するため、生成的アプローチを採用した解決策「BabyVision-Gen」を提案し、同時にオープンソースの評価ツールキットも一般に公開した。BabyVision-Genは、視覚的なパズルを解くために新たな推論プロセスを構築することを目指しており、AIがより人間らしい直感を持って世界を捉えるための第一歩となることが期待されている。現在のマルチモーダルモデルが真の意味で人間レベルの知覚能力を獲得するためには、単にデータの規模を拡大するだけでなく、視覚的な基本要素(プリミティブ)をどのように統合し、処理するかという学習アーキテクチャそのものに対する根本的なパラダイムシフトが求められている。本研究は、今後のAI開発が目指すべき新たな方向性を提示する重要な成果といえる。
今回のベンチマーク公開は、AIコミュニティ全体に対して、現在のモデルの「知能」がどの程度言語に依存した見かけ上のものに過ぎないかを再考する機会を与えるものである。テキスト情報がない状況下で、純粋な視覚的情報のみから論理的な結論を導き出す能力は、自律型ロボットや高度な視覚支援システムを実現する上で不可欠な要素である。BabyVisionが提示した課題をいかに克服していくかが、次世代のマルチモーダルAIにおける競争の焦点となるだろう。研究者らは、この評価指標が広く活用されることで、より頑健で真の推論能力を備えたシステムの開発が加速されることを強く望んでいる。