この記事の要点は？

HR、IT、カスタマーサービスなどの1,150のタスクでAIエージェントを評価する「EnterpriseOps-Gym」が登場した。最高モデルでも成功率は37.4%にとどまり、長期的な戦略的計画立案における重大な欠如が浮き彫りになった。人間が作成した戦略計画をAIに提供すると、パフォーマンスが最大35ポイント向上することが確認された。

企業のAIエージェント、計画立案に大きな壁

•HR、IT、カスタマーサービスなどの1,150のタスクでAIエージェントを評価する「EnterpriseOps-Gym」が登場した。
•最高モデルでも成功率は37.4%にとどまり、長期的な戦略的計画立案における重大な欠如が浮き彫りになった。
•人間が作成した戦略計画をAIに提供すると、パフォーマンスが最大35ポイント向上することが確認された。

•HR、IT、カスタマーサービスなどの1,150のタスクでAIエージェントを評価する「EnterpriseOps-Gym」が登場した。
•最高モデルでも成功率は37.4%にとどまり、長期的な戦略的計画立案における重大な欠如が浮き彫りになった。
•人間が作成した戦略計画をAIに提供すると、パフォーマンスが最大35ポイント向上することが確認された。

AIが単なるチャットボットから自律的な労働者へと移行するのは、予想以上に困難であることが明らかになりつつある。ServiceNowの研究チームは、企業の複雑でStatefulな現実をシミュレートするために設計された厳格なベンチマーク「EnterpriseOps-Gym」を発表した。これは静的なテストとは異なり、500以上の機能ツールと数百のデータベーステーブルを備えたサンドボックス環境であり、モデルに対して人事やITなどの部門をまたぐ複雑なマルチステップのワークフロー管理を要求するものだ。

調査結果は、業界にとって冷静な現実を突きつける内容だった。最も先進的なモデルでさえ苦戦を強いられ、トップモデルの成功率はわずか37.4%に過ぎなかった。最大のボトルネックは情報の欠如ではなく、目標達成に向けた長期的なアクションシーケンスを構築する戦略的推論、すなわち「Agentic Planning」の失敗にある。研究者が「オラクル・プラン」（人間が設計したステップバイステップのガイド）をエージェントに提供したところ、成功率は14〜35ポイントも跳ね上がった。これは、現在のモデルがプロフェッショナルな自律性に不可欠な「先見性」を欠いていることを示唆している。

さらに懸念されるのは、エージェントが適切に「拒絶」できないことだ。この調査において、モデルは権限やデータが不足しているタスクを頻繁に実行しようとし、シミュレーション内の企業環境で意図しない、あるいは潜在的に有害な副作用を引き起こした。これは重大なセーフティギャップを浮き彫りにしている。自身の限界を認識できず、厳格なアクセスプロトコルに従えないのであれば、機密性の高いビジネス業務への導入は依然としてリスクが高すぎるのが現状である。

AIが単なるチャットボットから自律的な労働者へと移行するのは、予想以上に困難であることが明らかになりつつある。ServiceNowの研究チームは、企業の複雑でStatefulな現実をシミュレートするために設計された厳格なベンチマーク「EnterpriseOps-Gym」を発表した。これは静的なテストとは異なり、500以上の機能ツールと数百のデータベーステーブルを備えたサンドボックス環境であり、モデルに対して人事やITなどの部門をまたぐ複雑なマルチステップのワークフロー管理を要求するものだ。

調査結果は、業界にとって冷静な現実を突きつける内容だった。最も先進的なモデルでさえ苦戦を強いられ、トップモデルの成功率はわずか37.4%に過ぎなかった。最大のボトルネックは情報の欠如ではなく、目標達成に向けた長期的なアクションシーケンスを構築する戦略的推論、すなわち「Agentic Planning」の失敗にある。研究者が「オラクル・プラン」（人間が設計したステップバイステップのガイド）をエージェントに提供したところ、成功率は14〜35ポイントも跳ね上がった。これは、現在のモデルがプロフェッショナルな自律性に不可欠な「先見性」を欠いていることを示唆している。

さらに懸念されるのは、エージェントが適切に「拒絶」できないことだ。この調査において、モデルは権限やデータが不足しているタスクを頻繁に実行しようとし、シミュレーション内の企業環境で意図しない、あるいは潜在的に有害な副作用を引き起こした。これは重大なセーフティギャップを浮き彫りにしている。自身の限界を認識できず、厳格なアクセスプロトコルに従えないのであれば、機密性の高いビジネス業務への導入は依然としてリスクが高すぎるのが現状である。

企業のAIエージェント、計画立案に大きな壁

タグ