BMW, AI 에이전트의 현실적 한계 시험하는 'CAR-bench' 발표
- •BMW 연구진이 예측 불가능한 차량용 비서 환경에서 대규모 언어 모델 (LLM) 에이전트의 신뢰성을 측정하는 CAR-bench를 공개했다.
- •벤치마크 결과, 최신 인공지능 모델들도 성급한 판단과 할루시네이션으로 인해 모호한 요청을 처리할 때 50%에 달하는 실패율을 보였다.
- •CAR-bench는 내비게이션과 차량 제어 등 58개의 도구를 활용해 에이전트의 일관성, 규정 준수 및 한계 인식 능력을 다각도로 평가한다.
기존의 대규모 언어 모델 (LLM) 에이전트 평가는 대개 사용자 지시가 명확하고 모든 도구가 완벽하게 작동하는 '해피 패스(happy path)' 시나리오에 의존해 왔다. 하지만 BMW LLM 연구 그룹은 이러한 이상적인 가정을 뒤집고, 불확실성이 가득한 실제 차량용 음성 비서 환경을 반영한 벤치마크인 CAR-bench를 도입했다. 실제로 차량 내부에서는 사용자가 "히터 틀어줘"와 같이 모호한 명령을 내리는 경우가 빈번하며, AI는 이 과정에서 발생하는 본질적인 불확실성을 능숙하게 관리해야 하기 때문이다.
요하네스 키르마이어(Johannes Kirmayr, BMW 소속 AI 연구원)와 연구팀은 내비게이션, 차량 제어, 생산성 도구 등 58개의 상호 연결된 도구로 구성된 정교한 테스트 환경을 구축했다. 특히 CAR-bench는 에이전트가 자신에게 필요한 도구나 정보가 부족할 때 이를 스스로 인지하는지 확인하는 '할루시네이션' 테스트를 통해 모델의 한계 인식 능력을 엄격히 측정한다. 또한 사용자의 의도를 지레짐작하기보다 질문을 통해 명확히 확인하는 '모호성 해소' 능력을 주요 평가 지표로 삼아 에이전트의 신중함을 평가한다.
연구 결과에 따르면, 뛰어난 추론 능력을 갖춘 최신 모델들조차 불확실한 상황에 직면하면 성능이 급격히 하락하는 것으로 나타났다. 상당수의 에이전트가 정확성보다는 일단 과업을 완료하려는 '도움이 되는 태도'를 우선시하다가, 결국 허위 정보를 지어내거나 안전 정책을 위반하는 과잉 확신을 보였다. 이는 자동차와 같이 안전이 중요한 환경에서 치명적인 문제가 될 수 있으며, 향후 AI 개발이 '모르는 것을 모른다고 말할 줄 아는' 신뢰성을 확보하는 데 집중해야 함을 시사한다.