Meta AI、動画生成の物理的整合性を高める新技術「PhyGDPO」を発表
- •Meta AIが動画生成における重力や衝突などの物理的不整合を解消する新手法「PhyGDPO」を開発した。
- •視覚言語モデル(VLM)と論理的推論(CoT)を組み合わせ、物理挙動を正確に評価する13.5万件のデータセットを構築した。
- •物理精度を競うベンチマークで既存モデルを圧倒し、ロボット工学や高度なシミュレーションへの応用が期待される。
Meta AIのリード研究者であるYuanhao Cai氏や、コンピュータビジョンの権威として著名なAlan Yuille教授らの研究チームは、動画生成AIにおける致命的な欠陥である物理的な不整合を劇的に改善する新手法「PhyGDPO」を開発した。現在のテキストからの動画生成(Text-to-Video)AIは、視覚的には高品質な映像を出力できるものの、物体が不自然に浮遊したり重力を無視したりするなど、基本的な物理法則を軽視する傾向が強い。この問題を解決するため、チームは「Chain-of-Thought(思考の連鎖)」と呼ばれる論理的な推論手法を導入した。これは、視覚言語モデル(VLM)を用いて動画内の物理的な挙動を段階的に分析し、詳細に記述するデータパイプラインを構築するプロセスである。
技術の中核を担うのは、物理法則を考慮した「Physics-Aware Groupwise Direct Preference Optimization(PhyGDPO)」というアルゴリズムである。これは、単に二つの選択肢から良し悪しを判断する従来の学習方法とは異なり、複数の動画バリエーションをグループ単位で比較検討することで、より微細で複雑な物理的ニュアンスを学習モデルに反映させる。さらに、VLMを「審判」として機能させる「物理ガイド付き報酬スキーム」を採用した。これにより、ボールの跳ね返りや液体の流動といった生成された動作が、現実世界の物理現象と高度に一致した場合にAIに報酬が与えられる仕組みを構築した。また、学習の効率化を図るために「LoRA-SR」という手法を導入し、膨大なメモリ消費を抑えつつ、より低コストで迅速なモデルの微調整を可能にした。
独自のベンチマーク「PhyGenBench」を用いた評価実験において、本手法は既存の主要なオープンソース動画生成モデルを物理的精度の面で大幅に上回る結果を示した。13万5000件のデータを含む「PhyVidGen-135K」データセットによって訓練されたこのモデルは、映像のリアリティを新たな次元へと引き上げている。物理的に正確な動画生成技術は、エンターテインメント分野に留まらず、ロボットの動作訓練や高精度なデジタルシミュレーションなど、実社会における広範な応用が期待されている。Meta AIによるこの進展は、AIが物理世界を正しく理解し、シミュレートするための極めて重要なマイルストーンとなるだろう。