全身の動きから未来を視覚化するAI「PEVA」が登場
- •全身48カ所の関節の動きを認識し、その後に起こる状況を一人称視点の未来映像として予測・生成する。
- •物理法則と因果関係を理解する「世界モデル」の構築により、ロボットによる高度な環境把握を可能にする。
- •最新の拡散トランスフォーマー技術を用い、冷蔵庫を開けるなどの複雑な日常動作を正確にシミュレートする。
カリフォルニア大学バークレー校の研究チームは、人間の複雑な身体動作に基づき、その後の展開を一人称視点の映像として生成する画期的なAIモデル「PEVA」を発表した。従来の先行研究では抽象的な信号を用いた単純なナビゲーションの予測に留まっていたが、PEVAは全身48カ所の詳細な関節の動きを正確に反映し、極めて精緻な未来予測を可能にした。これは人間が実際に行動を起こす前に、その結果を脳内で視覚的にシミュレーションするプロセスを模倣したものであり、視覚的な情報から物理的な現実や因果関係を深く理解する「世界モデル」の構築に向けた大きな飛躍を意味しているのである。
高次元かつ複雑な身体データを効率的に処理するため、研究チームは最新の画像生成技術である拡散モデルとトランスフォーマー構造を組み合わせた、拡張版の「拡散トランスフォーマー(Diffusion Transformer)」アーキテクチャを採用した。この強力な基盤により、PEVAは特定の動作に連動したリアルタイムな環境変化を予測し、出力することができるようになった。具体的には、ユーザーが冷蔵庫の取っ手に手を伸ばした際、AIはドアが開いて庫内の様子が映し出される未来の映像を即座に生成する。単なるピクセル合成の域を超え、この技術は視覚的なプランニング(視覚計画)を容易にし、複雑な現実世界においてロボットが目標を達成するためにどの動きを選択すべきかを判断する重要な指針となる。
さらに、このモデルは一人称視点という制約の中で、カメラに映らない身体部位の動きが周囲の環境にどのような物理的影響を及ぼすかを正確に推論する能力を備えている点が非常に先進的である。PEVAは最長16秒間にわたり、物理的な整合性を保った一貫性のある映像を生成し続けることが可能であり、これは家庭用ロボットや産業用ロボットがより複雑で高度な日常タスクを遂行するための不可欠な能力となる。研究チームは今後、このシステムをさらに洗練させ、ロボットが周囲の物理環境と自律的に対話しながら自ら学習し、進化を遂げる高度な知能システムの実現を目指している。これにより、AIが物理世界の法則を真に理解する時代が到来しようとしている。