性能は規模より「人のスキル」:SkillsBenchが証明
- •SkillsBenchを用いて、人間が整備した知識とAIが自己生成した手順におけるエージェントの性能を86のタスクで評価した。
- •人間が作成したスキルを付与することで成功率が16.2%向上し、小規模モデルが大規模モデルを上回る逆転現象が確認された。
- •AIは効果的な自己スキルの生成に失敗しており、指示に従う能力と指示を自作する能力の間に大きな乖離があることが判明した。
AIエージェントの潮流は、単純な計算能力から、モデルを複雑なワークフローへと導く「スキル(構造化された手順知識)」へと移行しつつある。これを受け、研究者であるXiangyi Li(シャンイー・リー)氏らは、11の領域にわたる86のタスクを網羅した包括的な評価フレームワーク「SkillsBench」を発表し、スキルの有効性を定量化した。その結果、エージェントは人間が作成した指示を与えられると飛躍的に性能を伸ばす一方で、自ら手順書を作成させると著しく苦戦するという、対照的な実態が浮き彫りになった。
本研究の特筆すべき点は、適切な「スキル」がモデルの規模を補完し得ることを証明したことだ。驚くべきことに、人間が作成したスキルを備えた小規模モデルのClaude 4.5 Haikuが、それを持たないはるかに大規模なClaude 4.5 Opusの性能を上回るという結果が出た。この事実は、医療やソフトウェアエンジニアリングといった実戦的な用途において、膨大なパラメータ数よりも精密に設計された指示の方が価値が高いことを示唆している。対照的に、実行前にモデル自身が手順を教え込もうとする「自己生成スキル」では、むしろ性能がわずかに低下した。
この「知識の乖離」は、最先端のモデルであっても、内部知識を信頼できる手順へと昇華させるメタ認知能力が不足していることを意味する。開発者にとっての教訓は明確だ。膨大なマニュアルをコンテキストに詰め込むよりも、2〜3個のモジュールに絞った焦点の明確なドキュメントを用意する方がはるかに効果的である。エージェンティックAI(自律型AI)の未来は、基盤となるニューラルネットワークの構造だけでなく、人間がいかに知見を整理し提供できるかという専門性にもかかっている。なお、本研究の評価にはBenchFlowという基盤が活用されている。