INSAIT, 고품질 다국어 AI 벤치마크 번역 자동화
- •다국어 AI 데이터셋의 번역 오류와 의미론적 드리프트를 해결하는 자동화 파이프라인 개발
- •T-RANK 및 유니버설 셀프 임프루브먼트 기법으로 기존 대비 4배 높은 선호도 달성
- •비영어권 모델 성능 측정을 위해 유럽 8개 언어용 프레임워크 공개
AI 모델이 영어가 아닌 다른 언어에서 얼마나 잘 작동하는지 평가하는 과정은 오랫동안 난제로 남아 있었다. 대부분의 벤치마크는 기본적인 도구를 사용해 영어에서 단순히 번역되기 때문에, 질문의 핵심 의미가 변하는 '의미론적 드리프트'나 문화적·언어적 뉘앙스가 사라지는 '문맥 손실'이 자주 발생한다. 이러한 오류는 모델의 실제 능력을 제대로 반영하지 못하는 오해의 소지가 있는 점수로 이어지기 마련이다.
이를 해결하기 위해 마틴 베체프(Martin Vechev, INSAIT 설립자이자 컴퓨터 과학 교수)가 이끄는 INSAIT 연구진은 'Test-time compute scaling'을 활용한 새로운 자동화 프레임워크를 개발했다. 이 시스템은 단 한 번의 번역에 의존하는 대신 여러 번역 후보를 생성한 후, T-RANK라는 순위 산정 방식을 통해 최적의 결과물을 선택한다. 이 방식은 번역 단계에서 더 많은 연산 능력을 효과적으로 사용하여 최종 출력이 원본 작업의 구조와 난이도를 유지하도록 보장한다.
연구진은 우크라이나어, 불가리아어, 그리스어를 포함한 동유럽 및 남유럽 8개 언어에 해당 파이프라인을 적용했다. 특히 성능이 뛰어난 AI가 다른 AI의 품질을 채점하는 모델 기반 평가 방식을 도입한 결과, 새롭게 생성된 번역은 이전 버전보다 4배 더 높은 선호도를 기록했다. 해당 프레임워크는 현재 오픈소스로 공개되어 더욱 신뢰할 수 있고 재현 가능한 글로벌 AI 개발을 위한 청사진을 제공한다.
이러한 연구 성과는 영어 중심의 AI와 전 세계 나머지 국가 간의 격차를 좁힌다는 점에서 의미가 크다. 다양한 언어에서의 성능 측정 방식을 정교화함으로써 개발자들은 특정 지역에 맞춰 모델을 더욱 정확하게 조정할 수 있게 되었다. 결과적으로 언어 장벽이나 부실한 평가 데이터로 인해 AI의 혜택이 제한되지 않도록 보장하는 기반이 마련된 셈이다.