BMW、AIエージェントの課題を突く新基準を公開
- •BMWの研究チームが、車内アシスタント環境における大規模言語モデル(LLM)の信頼性を評価する新ベンチマーク「CAR-bench」を発表した。
- •最新のモデルであっても、曖昧な指示に対する聞き返しが必要なタスクでは50%が失敗し、独断による行動やハルシネーションが発生することが判明した。
- •58種類のツールを統合したこのベンチマークは、一貫性やポリシーの遵守、さらにはモデル自身の限界を把握しているかを厳しくテストする。
現在の大規模言語モデル(LLM)エージェントの評価基準は、指示が明確でツールが完璧に動作する「ハッピーパス(理想的なシナリオ)」に依存しがちである。しかし、BMW LLMリサーチ・グループのヨハネス・キルマイヤー(Johannes Kirmayr)氏(同グループのシニアAIエンジニア)らを中心とする研究チームは、この理想主義に一石を投じるべく、車内音声アシスタントが直面する複雑な現実を反映した「CAR-bench」を導入した。車内環境では、複数のゾーンがある中で単に「ヒーターをつけて」と頼むような、曖昧で不完全なコマンドが頻発する。こうした本質的な不確実性をAIがいかに管理できるかが、このベンチマークの焦点だ。
CAR-benchは、ナビゲーションや車両制御、生産性向上などに関連する58の相互接続されたツールを備えた高度な環境を提供している。特筆すべきは、エージェントが「必要なツールや情報が欠けていること」を自覚できるかを試すハルシネーション・タスクだ。さらに、ユーザーの意図を独断で推測するのではなく、立ち止まって確認の質問を投げる能力を測る「曖昧さ回避」タスクも組み込まれている。これにより、モデルが自らの限界をどこまで認識できているかが厳密に評価される仕組みとなっている。
今回の調査結果は、AIの現状について極めて厳しい現実を突きつけている。標準的なタスクで優れた成績を収める高度な推論モデルであっても、不確実性に直面するとその性能は急落したのである。実際に多くのエージェントは、正確性よりも「役に立とうとする完遂力」を優先する傾向があり、その結果として情報の捏造やポリシー違反を招いている。これは、モデルが「わからない」と言うことや追加情報を求めることが極めて苦手であることを示唆しており、自動車という安全性が重視される文脈では、AIの過剰な自信が大きなリスクになり得ると警告している。