AI 에이전트, 자율 과학 연구의 벽에 부딪히다
- •예일대학교 연구진이 실제 과학 연구 과제에서 AI 에이전트의 성능을 시험하는 ResearchGym을 도입했다.
- •GPT-5를 포함한 프론티어 모델들은 인간의 기준 성능을 넘어서는 비중이 6.7%에 그치며 심각한 신뢰성 격차를 보였다.
- •자원 관리 미흡과 컨텍스트 제한 등 장기 과제 수행 시의 결함이 AI의 자율적인 연구 능력을 저해하는 핵심 요인으로 분석된다.
AI 에이전트가 코드 작성이나 질문 답변 능력을 꾸준히 키워가고 있지만, 자율적인 과학 연구 수행 능력은 여전히 불확실한 상태다. 이에 따라 예일대학교(Yale University)의 아니케트 가리카파르티(Aniketh Garikaparthi, 예일대 연구원)를 포함한 연구진은 복잡한 다단계 AI 연구 과정을 평가하기 위한 새로운 벤치마크인 ResearchGym을 도입했다. 이 환경은 ICML이나 ICLR과 같은 주요 학술 대회의 논문을 활용해, AI가 가설을 제안하고 실험을 실행하며 인간이 세운 기준을 뛰어넘도록 유도한다. 특히 아이디어 구상부터 최종 구현까지 모든 단계를 스스로 처리해야 하는 폐쇄 루프 시스템을 제공한다는 점이 특징이다.
하지만 실험 결과, 현재 가장 앞선 모델들에서도 역량과 신뢰성 사이의 뚜렷한 간극이 확인됐다. GPT-5나 Claude Code와 같은 강력한 프론티어 모델을 기반으로 한 에이전트들도 장시간에 걸친 작업 성능을 유지하는 데 어려움을 겪었다. 실제로 GPT-5는 전체 평가 중 기존 논문의 기준 성능을 넘어선 경우가 단 6.7%에 불과했다. 비록 2025년 스포트라이트 과제에서 뛰어난 성과를 낸 사례가 한 차례 있었으나, 이는 매우 이례적인 결과였다. 이는 높은 수준의 학술적 엄밀함이 요구되는 상황에서 현재의 에이전틱 AI 시스템이 가진 예측 불가능성을 여실히 보여준다.
연구진은 AI가 진정한 자율 연구자로 거듭나는 것을 방해하는 몇 가지 장기적 실패 모드를 지적했다. 여기에는 근거가 부족한 아이디어에 대한 과도한 확신, 병렬 실험 관리의 어려움, 그리고 모델의 메모리 용량이나 컨텍스트 길이에 따른 물리적 한계 등이 포함된다. ResearchGym은 모델이 이러한 장애물을 어떻게 처리하는지 추적할 수 있는 인프라를 제공함으로써, 간헐적인 번뜩임과 지속적인 신뢰성 사이의 간극을 좁히고자 한다. 이러한 시도는 궁극적으로 과학적 발견의 속도를 높이는 데 필요한 안정성을 확보하는 밑거름이 될 전망이다.