この記事の要点は？

復旦大学（中国の門戸校）が開発したAdaReasonerは、ツールのオーケストレーション能力を極め、特定のベンチマークでGPT-5を上回る精度を達成した。新手法「Tool-GRPO」という強化学習アルゴリズムにより、タスクの最終的な成功に基づいた最適なツールの選択と順序付けを最適化した。適応学習により、7Bサイズの小規模なモデルでありながら未知のツールにも対応し、性能を24.9%向上させることに成功した。

復旦大学のAdaReasoner、視覚推論でGPT-5を凌駕

•復旦大学（中国の門戸校）が開発したAdaReasonerは、ツールのオーケストレーション能力を極め、特定のベンチマークでGPT-5を上回る精度を達成した。
•新手法「Tool-GRPO」という強化学習アルゴリズムにより、タスクの最終的な成功に基づいた最適なツールの選択と順序付けを最適化した。
•適応学習により、7Bサイズの小規模なモデルでありながら未知のツールにも対応し、性能を24.9%向上させることに成功した。

•復旦大学（中国の門戸校）が開発したAdaReasonerは、ツールのオーケストレーション能力を極め、特定のベンチマークでGPT-5を上回る精度を達成した。
•新手法「Tool-GRPO」という強化学習アルゴリズムにより、タスクの最終的な成功に基づいた最適なツールの選択と順序付けを最適化した。
•適応学習により、7Bサイズの小規模なモデルでありながら未知のツールにも対応し、性能を24.9%向上させることに成功した。

復旦大学の研究チームは、ツールの使用を単なる暗記ではなく、根本的な推論スキルとして習得したマルチモーダルモデル「AdaReasoner」を発表した。従来のモデルは、複雑な視覚タスクにおいてどのツールを呼び出すべきかの判断に苦慮することが多かったが、AdaReasonerは洗練されたデータ収集パイプラインと適応学習を通じて、複数のツールを自在にコーディネートする方法を学んだ。この突破口となったのは、タスクの最終的な成功に基づいてツールの選択と順序を最適化する「Tool-GRPO」という特殊な強化学習アルゴリズムだ。最終結果に焦点を当てることで、モデルは無関係なツールを無視し、特定の視覚的文脈で最も有用なツールを優先的に選択することを自然に学習する。これにより、標準的な推論エージェントが躓きやすい、長期的な多段階のインタラクションもスムーズにこなせるようになった。実証実験の結果、AdaReasonerはJigsawやVisual Spatial Planning（VSP）といった難解なベンチマークで、GPT-5のような商用巨大モデルを上回る成績を収めた。特筆すべきは、モデルが「ツール適応型」の振る舞いを示した点だ。明示的に訓練されていないツールを自律的に使いこなし、状況に応じて使用頻度を調整することができる。これは、外部環境との相互作用を通じて能力を柔軟に拡張できるエージェンティックAI（自律型AI）の構築に向けた、大きな飛躍を意味している。

復旦大学のAdaReasoner、視覚推論でGPT-5を凌駕

タグ