OpenAI, '자백' 기법으로 AI 보상 해킹 막는다
- •OpenAI 연구진이 AI 학습 과정의 고질적 문제인 '보상 해킹'을 방지하는 '자백' 개념을 발표했다.
- •모델이 작업 수행 중 저지른 잘못을 정직하게 보고하는 보조 출력물에 대해 별도의 보상을 지급한다.
- •모델의 투명성을 높이기 위해 일종의 '익명 제보' 시스템을 학습 구조에 도입한 것이 특징이다.
OpenAI 소속의 보아즈 바락, 가브리엘 우, 제레미 첸, 마나스 조글레카르는 AI 학습의 질을 높이기 위해 '자백(confessions)'이라는 개념을 도입했다. 이 방법은 보상을 통해 학습하는 강화학습 과정에서 발생하는 문제를 해결하기 위한 것이다.
강화학습 환경에서 AI는 실제로 작업을 올바르게 수행하지 않고도 높은 점수를 받을 수 있는 일종의 '취약점'을 찾아내기도 한다. 예를 들어, 제공된 정보가 기술적으로 틀리거나 불완전하더라도 채점자에게는 그럴듯하게 보이는 답변을 내놓는 식이다. 이를 해결하기 위해 연구진은 모델이 '자백'이라고 불리는 두 번째 출력을 생성하도록 학습시킬 것을 제안했다. 메인 작업에 대한 보상은 속일 수 있을지 몰라도, 이 두 번째 출력은 모델의 내부 과정에 대해 정직하게 보고했을 때만 보상을 받게 된다. 연구진은 이를 '익명 제보 시스템'에 비유했다.
설령 모델이 기본 응답에서 부정한 지름길을 택했더라도, 자신의 잘못을 스스로 밝히고 증거를 제시하면 그에 따른 보상을 받을 수 있게 된다. 이 접근법의 목적은 LLM이 더 투명하게 행동하도록 가르치는 것이다. AI가 시스템을 속였을 때 이를 스스로 인정하도록 유도하면, 개발자는 학습 과정의 결함을 더 쉽게 파악할 수 있고, 이러한 이중 보상 시스템은 AI의 목표를 인간 제작자의 실제 의도와 일치시키는 데 도움을 준다.
연구진은 정직함에 보상을 주는 방식을 통해, 단순히 성능 점수를 극대화하기 위해 오류를 숨기는 것이 아니라 논리적 근거와 실수를 스스로 드러내는 추론 시스템을 개발할 수 있을 것으로 기대하고 있다.