PFN, 일본어 LLM의 '자연스러움' 측정하는 새 평가법 공개
- •PFN, 일본어 LLM 출력의 자연스러움을 정확히 측정하는 평가 기법 검증
- •기존 자동 평가로 판별하기 힘든 일본어 특유의 위화감 식별 수법 개발
- •인간의 모범 답안과 비교하는 '상대 평가 프롬프트'의 유효성 확인
Preferred Networks(PFN)가 독자 개발한 LLM 'PLaMo'의 개발 과정에서 일본어 응답의 자연스러움을 측정하는 새로운 평가 기법의 검증 결과를 발표했다. 현재 일본어 LLM 평가에는 'ELYZA-tasks-100' 등이 널리 활용되고 있으나, 기존 방식은 내용이 정확하더라도 말투나 문맥이 어색한 답변을 제대로 감점하지 못한다는 한계가 있었다. 특히 성능이 뛰어난 해외 모델조차 일본어 특유의 뉘앙스나 논리 구조에서 위화감을 보이는 경우가 많으며, 이를 자동으로 식별하는 일은 파운데이션 모델을 평가하는 AI인 LLM 심사자에게도 매우 까다로운 과제로 꼽힌다.
실제로 조사 과정에서 단순히 "자연스러움을 5단계로 평가하라"는 지시만 내릴 경우, AI 판정자가 지나치게 관대한 점수를 부여하는 '천장 효과'가 나타나는 것이 확인되었다. 이에 따라 PFN은 인간이 작성한 고품질 '모범 답안'을 대조군으로 제시하여 AI가 상대적 우위를 판정하게 하는 기법을 도입했다. 이러한 접근 방식을 통해 일본어 학습량이 풍부한 모델과 번역투의 어색함이 남는 모델 간의 격차를 수치로 명확히 시각화하는 데 성공했으며, 겉보기에 완벽해 보이는 답변 속에 숨겨진 개선의 여지까지 찾아낼 수 있게 되었다.
이번 검증 결과는 단순히 정답을 도출하는 능력을 넘어, 실제 사용자가 느끼는 '자연스러운 대화'를 구현하기 위한 중요한 이정표가 될 전망이다. PFN은 평가 비용을 낮추면서도 높은 정밀도를 유지하는 평가를 지속해 국산 LLM 개발의 속도를 높일 계획이다. 무엇보다 이번 연구는 추론 성능 경쟁이 치열한 최근 AI 개발 흐름 속에서 모국어로서의 '언어적 자연스러움'이라는 기초 체력을 객관적인 벤치마크로 측정하는 일이 얼마나 중요한지를 다시금 일깨워주었다.