사고 구조화 기법, AI 추론 능력의 한계 돌파
- •사고 구조화(SoT) 프롬프트 도입으로 8가지 텍스트 처리 작업 성능 개선
- •6개 과학 분야 및 1,800개 샘플 기반의 구조적 추론 평가 벤치마크 T2S-Bench 공개
- •T2S-Bench 데이터를 활용한 미세조정 시 Qwen 모델 정확도 최대 8.6% 향상
텍스트를 구조화하는 능력은 인간 지능의 핵심적 특징이지만, 상당수의 AI 모델은 여전히 가공되지 않은 정보를 유용한 형식으로 조직하는 데 어려움을 겪는다. 이에 연구진은 모델이 중간 텍스트 구조를 먼저 생성하도록 유도하는 프롬프트 엔지니어링 기법인 사고 구조화(Structure of Thought, SoT)를 도입했다. AI가 최종 답변을 내놓기 전 추론 과정을 '개요' 형태로 정리하게 함으로써, 복잡한 데이터 추출이나 멀티홉 작업에서 더욱 명확한 경로를 제공하는 것이 핵심이다.
이 기법과 함께 공개된 T2S-Bench는 자연어를 표나 트리와 같은 구조적 형식으로 변환하는 능력을 정밀하게 측정하는 벤치마크다. 6개의 과학 분야와 32가지 구조적 유형을 아우르는 이 데이터셋은 현재 기술력의 한계를 명확히 보여준다. 실제로 최상위권 모델조차 멀티홉 작업에서 평균 52.1%의 낮은 정확도를 기록했다. 이는 고도의 전문성이 요구되는 과학적 응용 분야에서 최첨단 시스템조차 여전히 개선의 여지가 많다는 점을 시사한다.
실질적인 성능 향상 효과도 상당한 것으로 나타났다. Qwen2.5-7B-Instruct 모델에 사고 구조화 프롬프트를 적용하는 것만으로도 성능이 5.7% 향상됐으며, T2S-Bench 데이터셋으로 특화된 미세조정을 거친 뒤에는 향상 폭이 8.6%까지 벌어졌다. 이러한 결과는 훈련에 사용되는 원천 데이터 못지않게 모델의 '내부 조직화'를 유도하는 과정이 중요하다는 사실을 뒷받침한다. 즉, 모델이 무엇을 알고 있는가만큼이나 어떻게 생각하는가가 핵심적인 요소임을 증명한 셈이다.