이 기사의 핵심 내용은?

예일대학교 연구진이 실제 과학 연구 과제에서 AI 에이전트의 성능을 시험하는 ResearchGym을 도입했다. GPT-5를 포함한 프론티어 모델들은 인간의 기준 성능을 넘어서는 비중이 6.7%에 그치며 심각한 신뢰성 격차를 보였다. 자원 관리 미흡과 컨텍스트 제한 등 장기 과제 수행 시의 결함이 AI의 자율적인 연구 능력을 저해하는 핵심 요인으로 분석된다.

AI 에이전트, 자율 과학 연구의 벽에 부딪히다

•예일대학교 연구진이 실제 과학 연구 과제에서 AI 에이전트의 성능을 시험하는 ResearchGym을 도입했다.
•GPT-5를 포함한 프론티어 모델들은 인간의 기준 성능을 넘어서는 비중이 6.7%에 그치며 심각한 신뢰성 격차를 보였다.
•자원 관리 미흡과 컨텍스트 제한 등 장기 과제 수행 시의 결함이 AI의 자율적인 연구 능력을 저해하는 핵심 요인으로 분석된다.

AI 에이전트가 코드 작성이나 질문 답변 능력을 꾸준히 키워가고 있지만, 자율적인 과학 연구 수행 능력은 여전히 불확실한 상태다. 이에 따라 예일대학교(Yale University)의 아니케트 가리카파르티(Aniketh Garikaparthi, 예일대 연구원)를 포함한 연구진은 복잡한 다단계 AI 연구 과정을 평가하기 위한 새로운 벤치마크인 ResearchGym을 도입했다. 이 환경은 ICML이나 ICLR과 같은 주요 학술 대회의 논문을 활용해, AI가 가설을 제안하고 실험을 실행하며 인간이 세운 기준을 뛰어넘도록 유도한다. 특히 아이디어 구상부터 최종 구현까지 모든 단계를 스스로 처리해야 하는 폐쇄 루프 시스템을 제공한다는 점이 특징이다.

하지만 실험 결과, 현재 가장 앞선 모델들에서도 역량과 신뢰성 사이의 뚜렷한 간극이 확인됐다. GPT-5나 Claude Code와 같은 강력한 프론티어 모델을 기반으로 한 에이전트들도 장시간에 걸친 작업 성능을 유지하는 데 어려움을 겪었다. 실제로 GPT-5는 전체 평가 중 기존 논문의 기준 성능을 넘어선 경우가 단 6.7%에 불과했다. 비록 2025년 스포트라이트 과제에서 뛰어난 성과를 낸 사례가 한 차례 있었으나, 이는 매우 이례적인 결과였다. 이는 높은 수준의 학술적 엄밀함이 요구되는 상황에서 현재의 에이전틱 AI 시스템이 가진 예측 불가능성을 여실히 보여준다.

연구진은 AI가 진정한 자율 연구자로 거듭나는 것을 방해하는 몇 가지 장기적 실패 모드를 지적했다. 여기에는 근거가 부족한 아이디어에 대한 과도한 확신, 병렬 실험 관리의 어려움, 그리고 모델의 메모리 용량이나 컨텍스트 길이에 따른 물리적 한계 등이 포함된다. ResearchGym은 모델이 이러한 장애물을 어떻게 처리하는지 추적할 수 있는 인프라를 제공함으로써, 간헐적인 번뜩임과 지속적인 신뢰성 사이의 간극을 좁히고자 한다. 이러한 시도는 궁극적으로 과학적 발견의 속도를 높이는 데 필요한 안정성을 확보하는 밑거름이 될 전망이다.

요즘 인공지능은 글도 잘 쓰고 컴퓨터 프로그램도 잘 만들지만, 혼자서 과학 실험을 처음부터 끝까지 해낼 수 있는지는 아직 잘 몰라요. 그래서 미국 예일대학교 연구팀은 AI의 실력을 꼼꼼히 확인하기 위해 '과학 연구 시험장(ResearchGym)'이라는 시스템을 만들었어요. 이 시험장에서는 AI가 스스로 아이디어를 내고, 직접 실험을 해서 결과를 만들어내야 해요. 마치 진짜 과학자처럼 스스로 모든 단계를 처리하는 능력(폐쇄 루프 시스템)을 평가하는 것이 특징이에요.

하지만 실험 결과, 아주 똑똑하다고 소문난 최신 인공지능(프론티어 모델)들도 긴 시간 동안 집중해서 연구를 이어가는 데는 실패했어요. 예를 들어, 가장 유명한 AI 중 하나인 GPT-5는 사람이 정해둔 기준을 뛰어넘은 경우가 100번 중 7번(6.7%)도 되지 않았어요. 아주 가끔 한 번씩 깜짝 놀랄 만한 성과를 내기도 했지만, 꾸준히 잘하지는 못했지요. 이는 복잡하고 수준 높은 과학 공부를 할 때 인공지능이 내놓는 결과를 아직은 100% 믿기 어렵다는 것을 보여줘요.

연구팀은 AI가 왜 실패했는지도 분석해 보았어요. AI는 근거가 부족한 자기 생각에 대해 너무 자신만만(과도한 확신)해하거나, 여러 가지 실험을 동시에 관리(병렬 실험 관리)하는 것을 힘들어했어요. 또한 인공지능이 한꺼번에 기억하고 처리할 수 있는 정보의 양(컨텍스트 길이)에도 한계가 있었죠. 연구팀은 이번에 만든 시험장을 통해 AI의 이런 문제점들을 고쳐나갈 계획이에요. 이 연구가 계속되면 나중에는 인공지능이 훨씬 더 빠르고 정확하게 새로운 과학적 사실을 발견하도록 도와줄 수 있을 거예요.

AI 에이전트, 자율 과학 연구의 벽에 부딪히다

AI가 스스로 과학자가 되기엔 아직 '벽'이 높아요

태그