復旦大学のAdaReasoner、視覚推論でGPT-5を凌駕
2026年1月28日 (水)
- •復旦大学(中国の門戸校)が開発したAdaReasonerは、ツールのオーケストレーション能力を極め、特定のベンチマークでGPT-5を上回る精度を達成した。
- •新手法「Tool-GRPO」という強化学習アルゴリズムにより、タスクの最終的な成功に基づいた最適なツールの選択と順序付けを最適化した。
- •適応学習により、7Bサイズの小規模なモデルでありながら未知のツールにも対応し、性能を24.9%向上させることに成功した。
復旦大学の研究チームは、ツールの使用を単なる暗記ではなく、根本的な推論スキルとして習得したマルチモーダルモデル「AdaReasoner」を発表した。 従来のモデルは、複雑な視覚タスクにおいてどのツールを呼び出すべきかの判断に苦慮することが多かったが、AdaReasonerは洗練されたデータ収集パイプラインと適応学習を通じて、複数のツールを自在にコーディネートする方法を学んだ。 この突破口となったのは、タスクの最終的な成功に基づいてツールの選択と順序を最適化する「Tool-GRPO」という特殊な強化学習アルゴリズムだ。 最終結果に焦点を当てることで、モデルは無関係なツールを無視し、特定の視覚的文脈で最も有用なツールを優先的に選択することを自然に学習する。 これにより、標準的な推論エージェントが躓きやすい、長期的な多段階のインタラクションもスムーズにこなせるようになった。 実証実験の結果、AdaReasonerはJigsawやVisual Spatial Planning(VSP)といった難解なベンチマークで、GPT-5のような商用巨大モデルを上回る成績を収めた。 特筆すべきは、モデルが「ツール適応型」の振る舞いを示した点だ。 明示的に訓練されていないツールを自律的に使いこなし、状況に応じて使用頻度を調整することができる。これは、外部環境との相互作用を通じて能力を柔軟に拡張できるエージェンティックAI(自律型AI)の構築に向けた、大きな飛躍を意味している。