この記事の要点は？

Alibabaが1,230個のプロンプトを含むベンチマーク「SpatialGenEval」を発表し、画像生成AIの空間推論能力を検証した。主要21モデルの評価により、物体の重なり（遮蔽）や因果関係といった高次のタスクにおける顕著な弱点が判明した。新データセット「SpatialT2I」でファインチューニングを実施した結果、空間的な正確性が最大5.7%向上した。

Alibaba、画像生成AIの「空間知能」を測る新指標を公開

•Alibabaが1,230個のプロンプトを含むベンチマーク「SpatialGenEval」を発表し、画像生成AIの空間推論能力を検証した。
•主要21モデルの評価により、物体の重なり（遮蔽）や因果関係といった高次のタスクにおける顕著な弱点が判明した。
•新データセット「SpatialT2I」でファインチューニングを実施した結果、空間的な正確性が最大5.7%向上した。

•Alibabaが1,230個のプロンプトを含むベンチマーク「SpatialGenEval」を発表し、画像生成AIの空間推論能力を検証した。
•主要21モデルの評価により、物体の重なり（遮蔽）や因果関係といった高次のタスクにおける顕著な弱点が判明した。
•新データセット「SpatialT2I」でファインチューニングを実施した結果、空間的な正確性が最大5.7%向上した。

現在の画像生成モデルは、一見すると息を呑むほど美しいビジュアルを作り出す。しかし、その空間的な論理性に目を向けると、細部で綻びが生じることが少なくない。

「マットの上の猫」といった単純な配置は得意だが、「箱の後ろに隠れて耳だけが見えている猫」のように、奥行きや物理的な相互作用の機微を捉えることには苦慮しているのだ。

Alibabaの研究者たちはこの溝を埋めるため、1,230個の情報密度の高いプロンプトを用いてAIの空間知能を厳密に測定する標準化テスト、「SpatialGenEval」を開発した。

このベンチマークは、単なる物体の配置を超え、物体同士が重なり合う「遮蔽」や物理的な因果関係が絡む複雑なシナリオでモデルを試す。

21種類の主要なSOTAモデルを評価した結果、最も進んだシステムでさえ、高次の空間推論において大きなボトルネックを抱えていることが改めて確認された。

現在の学習データには、三次元空間における物体の占有状態をモデルが正しく理解するための、深い記述が不足していることが示唆されている。

研究チームはこの解決策として、15,400件の高品質なデータを含む「SpatialT2I」を公開した。

画像やテキストを横断的に処理するマルチモーダルAIの代表格である、Stable Diffusion-XLのような基盤モデルにファインチューニングを施したところ、空間精度の向上が確認された。

このデータ中心のアプローチは、空間知能の欠如が設計上の問題だけでなく、学習時にいかに精密で空間を意識した説明を与えるかという課題であることを物語っている。