動画から3D空間知能を生成する新AIパイプライン
2026年3月10日 (火)
- •Holi-Spatialが、動画から大規模な3D空間データを構築する初の完全自動パイプラインを発表した。
- •1万2,000件の3Dシーンと120万件の空間推論ペアを含む新データセット「Holi-Spatial-4M」を公開。
- •微調整された視覚言語モデルにより、幾何学的・関係的な推論タスクにおいて大幅な性能向上を達成。
AIが世界の物理的なレイアウトを理解する能力である「空間知能」の探求は、高品質な3Dデータの不足により長らく停滞していた。従来、こうしたデータセットの構築には膨大な手作業によるアノテーションが必要であり、小規模で人工的な環境に限定されることが一般的であった。Holi-Spatialはこの状況を一変させ、標準的な動画ストリームを複雑な3Dデジタル環境へと変換する完全自動のパイプラインを導入した。
このシステムは、3Dシーンを学習可能な点の集合として表現する3D Gaussian Splattingを活用し、高い幾何学的精度でシーンを再構築する。単なる視覚的な再現にとどまらず、デプスマップやオブジェクト単位のラベル、関係データを自動生成するのが特徴だ。これにより、AIモデルは対象物が「何であるか」だけでなく、物理空間においてそれらが「互いにどのような位置関係にあるか」まで深く学習できるようになった。
研究チームがリリースした「Holi-Spatial-4M」は、1万2,000件の最適化されたシーンと100万件以上の空間推論ペアを含む膨大なデータセットである。このデータで視覚言語モデルを訓練したところ、周囲の物理環境に関する複雑な問いへの回答能力が飛躍的に向上した。この成果は、AIがネット上の膨大な動画コンテンツを「視聴」するだけで、現実世界を理解し、ナビゲートできるようになる未来を予見させるものである。