이 기사의 핵심 내용은?

사고 구조화(SoT) 프롬프트 도입으로 8가지 텍스트 처리 작업 성능 개선 6개 과학 분야 및 1,800개 샘플 기반의 구조적 추론 평가 벤치마크 T2S-Bench 공개 T2S-Bench 데이터를 활용한 미세조정 시 Qwen 모델 정확도 최대 8.6% 향상

사고 구조화 기법, AI 추론 능력의 한계 돌파

•사고 구조화(SoT) 프롬프트 도입으로 8가지 텍스트 처리 작업 성능 개선
•6개 과학 분야 및 1,800개 샘플 기반의 구조적 추론 평가 벤치마크 T2S-Bench 공개
•T2S-Bench 데이터를 활용한 미세조정 시 Qwen 모델 정확도 최대 8.6% 향상

•인공지능에게 정답을 말하기 전 미리 '생각의 뼈대'를 세우게 했더니 일을 훨씬 더 잘하게 되었어요.
•인공지능이 복잡한 정보를 표나 그림으로 얼마나 잘 바꾸는지 확인하는 새로운 시험지가 만들어졌어요.
•생각하는 법을 따로 연습한 인공지능은 어려운 문제를 맞히는 능력이 최대 8.6%나 좋아졌어요.

텍스트를 구조화하는 능력은 인간 지능의 핵심적 특징이지만, 상당수의 AI 모델은 여전히 가공되지 않은 정보를 유용한 형식으로 조직하는 데 어려움을 겪는다. 이에 연구진은 모델이 중간 텍스트 구조를 먼저 생성하도록 유도하는 프롬프트 엔지니어링 기법인 사고 구조화(Structure of Thought, SoT)를 도입했다. AI가 최종 답변을 내놓기 전 추론 과정을 '개요' 형태로 정리하게 함으로써, 복잡한 데이터 추출이나 멀티홉 작업에서 더욱 명확한 경로를 제공하는 것이 핵심이다.

이 기법과 함께 공개된 T2S-Bench는 자연어를 표나 트리와 같은 구조적 형식으로 변환하는 능력을 정밀하게 측정하는 벤치마크다. 6개의 과학 분야와 32가지 구조적 유형을 아우르는 이 데이터셋은 현재 기술력의 한계를 명확히 보여준다. 실제로 최상위권 모델조차 멀티홉 작업에서 평균 52.1%의 낮은 정확도를 기록했다. 이는 고도의 전문성이 요구되는 과학적 응용 분야에서 최첨단 시스템조차 여전히 개선의 여지가 많다는 점을 시사한다.

실질적인 성능 향상 효과도 상당한 것으로 나타났다. Qwen2.5-7B-Instruct 모델에 사고 구조화 프롬프트를 적용하는 것만으로도 성능이 5.7% 향상됐으며, T2S-Bench 데이터셋으로 특화된 미세조정을 거친 뒤에는 향상 폭이 8.6%까지 벌어졌다. 이러한 결과는 훈련에 사용되는 원천 데이터 못지않게 모델의 '내부 조직화'를 유도하는 과정이 중요하다는 사실을 뒷받침한다. 즉, 모델이 무엇을 알고 있는가만큼이나 어떻게 생각하는가가 핵심적인 요소임을 증명한 셈이다.

우리 사람들은 공부할 때 내용을 체계적으로 정리해서 이해하는 능력이 뛰어나요. 하지만 많은 인공지능(AI)은 복잡한 정보를 사용하기 좋게 정리하는 것을 여전히 어려워하죠. 그래서 연구원들은 인공지능이 최종 정답을 내놓기 전에, 마치 글짓기 개요를 짜는 것처럼 먼저 '생각의 뼈대(사고 구조화, SoT)'를 만들도록 가르쳤어요. 인공지능이 생각을 먼저 정리하면 복잡한 데이터 속에서도 길을 잃지 않고 정확한 정답을 찾아낼 수 있기 때문이에요.

이와 함께 인공지능이 글을 읽고 표나 나무 모양의 그림처럼 정리된 모양(구조적 형식)으로 얼마나 잘 바꾸는지 확인하는 새로운 시험(T2S-Bench)도 공개되었어요. 6가지 과학 분야의 어려운 문제들로 구성된 이 시험을 치러보니, 아주 똑똑한 인공지능도 여러 단계를 거쳐 생각해야 하는 복잡한 문제(멀티홉 작업)에서는 정답률이 절반 정도인 52.1%밖에 되지 않았어요. 이는 아주 뛰어난 인공지능이라도 과학처럼 전문적인 분야에서는 아직 더 발전할 부분이 많다는 것을 보여줘요.

실제로 인공지능 모델(Qwen)에게 "생각을 정리하며 대답해봐"라고 말하는 기법(프롬프트 엔지니어링)만 사용해도 실력이 5.7% 좋아졌어요. 여기에 새로운 시험 문제 데이터로 특별 훈련(미세조정)까지 시켰더니 실력이 8.6%나 더 껑충 뛰었답니다. 이 결과는 인공지능이 얼마나 많은 지식을 가졌느냐보다, 가진 지식을 머릿속에서 어떻게 잘 정리하느냐(내부 조직화)가 똑똑해지는 데 아주 중요한 열쇠라는 사실을 증명한 셈이에요.

사고 구조화 기법, AI 추론 능력의 한계 돌파

생각을 차례대로 정리하는 법을 배운 인공지능, 실력이 쑥쑥 늘었어요!

태그