AIの物理的推論を問う新ベンチマーク「CHAIN」が登場
2026年2月25日 (水)
- •視覚言語モデル(VLM)の3D物理推論能力を評価する新ベンチマーク「CHAIN」が導入された。
- •静止画への回答という受動的な形式から、幾何学や物理的制約を考慮した能動的な問題解決への転換を促す。
- •現在のモデルでは、長期的計画や複雑な物理的相互作用の実行において顕著な性能不足が確認された。
現在の視覚言語モデル(VLM)は、画像の記述には極めて優れている。しかし、物理世界の複雑なナビゲーションや操作においては、依然として大きな壁に直面しているのが現状だ。こうした課題を解決するため、研究者らは受動的な認識を超えたAI能力を評価する、3D物理駆動型テストベッド「CHAIN(Causal Hierarchy of Actions and Interactions)」を新たに導入した。従来の静止画解析に依存する手法とは異なり、CHAINは幾何学的構造や物体間の支持関係が、動的な環境下でどのようなアクションを可能にするかを理解することをAIに要求する。
特にこのベンチマークは、物理的制約を遵守しながら物体を操作する「構造化されたアクションシーケンス」に焦点を当てている。これには、複雑に組み合わさったパズルの解法や、3Dアイテムの精密な積み上げといった高度なタスクが含まれる。知覚と実行のループを強制的に閉じさせることで、CHAINは現代のAIにおける重大な欠陥、すなわち物理世界の背後にある因果構造を内面化することの難しさを鮮明に浮き彫りにした。
Social AI Studio(AI研究チーム)に所属するジチアン・フー(Zhiqiang Hu、研究者)らによるテスト結果は、ロボティクス分野に厳しい現実を突きつけている。たとえ最先端のシステムであっても、信頼性の高い多段階の計画を生成できないことが多く、特に視覚情報を論理的な物理相互作用の連鎖へと変換する段階でつまずくケースが目立った。今後、AIが家庭や工場で真に自律的なアシスタントとして機能するためには、単なる物体認識のレベルを超え、空間推論や長期的計画を統合した強固な身体化エージェントとしての進化が不可欠である。