MIT、ハイブリッドAIでロボット計画の成功率を倍増
2026年3月11日 (水)
- •MITの研究チームがVLMFPシステムを開発し、複雑な視覚計画タスクの成功率を70%へと倍増させた。
- •視覚言語モデルと古典的なソルバーを組み合わせ、画像を実効可能なプログラムコードに変換するフレームワークを構築した。
- •事前学習なしの状態でも、複数ロボットの連携や3D組み立てシナリオにおいて80%の成功率を達成した。
予測不可能な環境における長期的なタスク計画は、自律システムにとって依然として大きな壁である。現代の視覚言語モデル(VLM)は画像内の物体を識別することには長けているが、実行に不可欠な空間的推論や多段階の論理構築には苦戦することが多い。この限界により、人間が介入することなくロボットが複雑な環境を移動したり、組み立てラインで連携したりすることは困難であった。
MITの研究チームは、「VLM誘導型形式計画(VLMFP)」と呼ばれる新しいフレームワークによってこの課題を解決した。このハイブリッドなアプローチでは、信頼性を高めるために役割を2つの専門モデルに分担させている。まず、「SimVLM」という小型モデルがシーンを説明し、可能性のある行動を自然言語でシミュレートする。続いて、より大規模なモデルがこれらのシミュレーションを「PDDL」という標準化された言語に変換する仕組みだ。
視覚データを形式的なプログラミング言語に変換することで、システムは「古典的ソルバー」を活用できるようになった。これは複雑な論理処理のために設計された信頼性の高いソフトウェアツールであり、ゴールへの最も効率的な経路を導き出す。この手法は、計算ではなく「次のステップを推測」しようとする純粋な生成モデルにありがちな「ハルシネーション(幻覚)」問題を効果的に回避している。
実際のテストにおいて、このシステムは従来のメソッドを大幅に上回り、平均成功率を30%から70%へと引き上げた。さらに特筆すべきは、未学習の新しいタスクにおいても高いパフォーマンスを発揮した点である。これは、現実世界のロボット工学や動的な製造環境に不可欠な柔軟性を備えていることを証明していると言えるだろう。