3Dデータの基盤モデル「Utonia」が誕生
2026年3月4日 (水)
- •5つの異なるドメインにまたがるポイントクラウドを単一の自己教師ありトランスフォーマーで学習
- •統一モデルにより認識精度が向上し、マルチドメイン学習による新たな能力の発現も確認
- •身体化AIの操作能力や視覚言語モデルの空間推論パフォーマンスを大幅に強化
現在のAIモデルは、レーザースキャンされた広大な都市景観から詳細な室内空間まで、性質の異なる3Dデータを横断して汎用化することに苦戦する場合が多い。研究チームが開発した「Utonia」は、多様なポイントクラウドのソースから同時に学習することで、このギャップを埋めるために設計された統一トランスフォーマーエンコーダーである。リモートセンシングデータからオブジェクト中心のCADモデルに至るまで、あらゆるデータから学習を行うことで、元のキャプチャ方法を問わず、3D空間に対する一貫した数学的言語を構築することに成功した。
Utoniaの特筆すべき点は、物体や環境の外表面を表す3次元空間上のデータ点の集合である「ポイントクラウド」を扱う能力にある。従来、これらのデータセットは密度や幾何学的形状が大きく異なるため、単一のモデルで効率的に処理することは困難であった。Utoniaは、人間によるラベル付けを必要とせず、生データから直接パターンを学習する自己教師あり学習を採用することでこの課題を克服し、これまで互換性のなかったドメイン間での3D構造の理解を可能にした。
さらに、Utoniaが生成する表現は、単なるオブジェクトの識別を超えて身体化AIの能力を大幅に向上させることが確認された。実際に、このモデルをロボットに統合した結果、物理空間での物体操作能力が改善したほか、視覚言語モデルと組み合わせることで空間推論能力も大幅に強化された。これは、大規模言語モデルがテキストベースのタスクの基盤となっているのと同様に、3Dデータにおける基盤モデルの構築に向けた大きな一歩となる。