AI, 과학적 직관의 영역까지 정복하다
- •연구진이 영향력 있는 연구 아이디어를 평가하고 제안하도록 AI를 훈련하는 RLCF 프레임워크를 도입했다.
- •70만 쌍의 논문 데이터를 학습한 'Scientific Judge' 모델이 연구 가치 예측에서 GPT-5.2의 성능을 앞질렀다.
- •정책 모델인 'Scientific Thinker'가 기존 베이스라인보다 잠재적 영향력이 높은 연구 제안서를 생성하는 데 성공했다.
그동안 연구자들은 AI의 코드 작성 능력과 같은 실행 역량에 주목해 왔으나, OpenMOSS 팀의 연구는 AI의 '과학적 안목(scientific taste)'으로 초점을 옮겼다. 여기서 안목이란 어떤 연구 아이디어가 장기적으로 높은 영향력을 가질지 판별하는 능력을 의미한다. 연구팀은 RLCF라는 프레임워크를 도입하여, AI가 고품질의 과학적 가설을 평가하고 스스로 생성할 수 있음을 입증했다.
훈련 과정은 기계에게 인간의 우선순위를 가르치는 Preference Modeling을 중심으로 한 2단계 접근법으로 구성됐다. 먼저 연구진은 인용 횟수가 현저히 차이 나는 70만 쌍의 논문 데이터를 학습시켜 'Scientific Judge'를 개발했다. 이 모델은 어떤 특성이 획기적인 과학 연구를 정의하는지 식별하며 Reward Model의 역할을 수행한다. 이어 연구진은 이 판독기 모델을 활용해 동료 검토 기준에 부합하는 새로운 연구 방향을 제안하는 'Scientific Thinker'를 훈련했다.
연구 결과는 매우 고무적이다. 특정 분야에 특화된 300억 개(30B) 매개변수 모델이 연구 벤치마크 테스트에서 GPT-5.2나 Gemini 3 Pro와 같은 상용 시스템의 성능을 압도했다. 이러한 성과는 단순히 데이터를 처리하는 수준을 넘어, 발견의 방향을 능동적으로 이끄는 'AI 과학자' 탄생의 이정표가 될 전망이다. 원시적인 데이터 처리 능력과 질적인 판단력 사이의 간극을 좁힘으로써, 인간 고유의 영역으로 여겨지던 직관마저 프로그래밍 가능한 기능이 되어가고 있다.