北京大学、画像生成の配置精度を高めるSpatialScoreを公開
- •報酬モデル「SpatialScore」により、画像生成AIによる複雑な空間関係の解釈能力が向上した。
- •北京大学の研究チームは、8万件以上の人間による選好データを含む「SpatialReward-Dataset」を構築した。
- •オンライン強化学習の導入により、空間的な正確性において商用モデルを凌駕する性能を実現した。
現在の画像生成AIは驚くほど創造的である一方、オブジェクトを特定の配置に置くよう指示されると、しばしば期待に沿わない結果を出力する。例えば「青いランプの左側に猫」と指示しても、AIが左右を逆にしたり、あるいはランプそのものを描画しなかったりといったミスが散見される。正確なレイアウトを得るには何度も生成を繰り返す必要があり、これがプロフェッショナルな現場での利用を妨げる要因となっていた。
これに対し、北京大学の研究チームは空間論理の「判定役」として機能する専用の報酬モデル「SpatialScore」を導入した。このシステムは、空間的な指示に正しく従っている画像とそうでない画像を比較した8万件以上のデータセット「SpatialReward-Dataset」を用いて学習されている。人間の選好を学習に取り入れることで、モデルは物理的な空間把握やオブジェクト同士の相互作用に関する高度な感覚を身につけることに成功した。
この技術の核心は、構築された報酬モデルの活用方法にある。AIが試行錯誤とフィードバックを通じて自ら学習を深める強化学習のプロセスを採用することで、生成モデルは出力をリアルタイムで微調整できるようになった。この手法により、最終的な画像が見栄えの良さを保つだけでなく、ユーザーが指定した通りの正確な位置に各オブジェクトを配置することが保証される。
比較テストの結果、SpatialScoreは空間精度において複数の主要な商用モデルを上回る成果を上げた。この進歩は、将来のAIツールが単なる審美的な美しさを提供する段階を超え、物理世界の幾何学を完全に制御できることを示唆している。これにより、デザインや建築のビジュアライゼーションなど、正確な配置が求められる専門領域において、AIはより信頼性の高いパートナーへと進化するだろう。