Meta, 1,600개 이상 언어 지원하는 기계 번역 기술 공개
- •Meta의 OMT 시스템은 기계 번역 지원 범위를 기존 200개에서 1,600개 이상의 언어로 확장했다.
- •10억~80억 매개변수 규모의 특화 모델이 번역 품질 면에서 700억 매개변수급 거대언어모델(LLM) 베이스라인을 능가했다.
- •BOUQuET과 같은 새로운 평가 도구를 통해 소외된 다양한 어족에 대해서도 신뢰할 수 있는 테스트가 가능해졌다.
Meta AI 연구진이 ‘범언어 기계 번역(Omnilingual Machine Translation, OMT)’을 도입하며 언어적 포용성 측면에서 거대한 도약을 이뤄냈다. 기존 최첨단 시스템이었던 NLLB(No Language Left Behind)가 200개 언어를 지원했던 것과 달리, OMT는 그 범위를 1,600개 이상의 언어로 대폭 넓혔다. 이러한 혁신은 특히 AI 모델이 많은 방언을 이해하더라도 이를 정확하게 쓰거나 말하는 데 어려움을 겪는 '생성 병목 현상' 문제를 해결하는 데 중점을 두었다.
이 시스템은 두 가지 차별화된 아키텍처 방식을 활용한다. 검색 증강 기술을 사용하여 디코더 전용 모델을 번역에 맞게 조정한 OMT-LLaMA와, 인코더-디코더 구조인 OMT-NLLB가 그것이다. 연구팀은 방대한 다국어 코퍼스에 합성 데이터와 수동으로 선별된 비텍스트(Bitext)를 통합함으로써, 이전에 소외되었거나 멸종 위기에 처한 수천 개의 언어에 대해 일관성 있는 문장 생성을 가능케 했다.
해당 연구 결과에 따르면, 10억에서 80억 개의 매개변수를 가진 소규모 특화 모델이 700억 개의 매개변수를 가진 대형 범용 모델보다 실제로 더 우수한 성능을 보일 수 있는 것으로 나타났다. 이러한 효율성은 단순히 모델의 크기를 키우는 것보다 번역 전용 데이터에 집중하여 학습시키는 것이 더 효과적임을 시사한다. Meta는 더 폭넓은 연구 커뮤니티를 지원하기 위해 광범위한 어족에 걸친 다국어 충실도를 테스트할 수 있는 역대 최대 규모의 데이터셋인 BOUQuET 평가 데이터셋을 공개했다.