일본 최초의 추론형 AI 'PLaMo 3.0 Prime β' 공개
- •Preferred Networks가 일본 기업 최초로 추론(Reasoning) 성능을 갖춘 'PLaMo 3.0 Prime β'를 공개했다.
- •YaRN 기술을 통해 컨텍스트 길이를 64K 토큰으로 확장하며 수학 및 의료 등 전문 영역 성능을 대폭 강화했다.
- •사고 과정(Thinking Process) 생성 기능을 탑재해 복잡한 논리 퍼즐을 정확히 해결하는 능력을 확보했다.
Preferred Networks(PFN)가 자사의 플래그십 모델인 'PLaMo 3.0 Prime β' 버전을 출시했다. 이 모델의 가장 큰 특징은 일본 국내에서 자체 개발된 모델로서는 처음으로 '추론(Reasoning) 능력'을 갖췄다는 점에 있다. 기존 모델이 질문에 대해 즉각적인 답변을 생성하는 것과 달리, 이 모델은 복잡한 문제를 해결할 때 내부적으로 단계별 사고를 정리한 뒤 최종 답을 도출하는 '사고 과정'을 출력할 수 있다.
기술적인 면에서는 학습 파이프라인을 전면적으로 쇄신했다. 기존의 SFT(지도 미세 조정)와 직접 선호도 최적화 (DPO) 방식에 더해 새롭게 강화학습(RL)을 도입했다. 이에 따라 수학적 추론 능력을 측정하는 벤치마크인 'AIME 2024' 등에서 기존 모델인 PLaMo 2.2를 크게 상회하는 성과를 거두었다. 또한 YaRN 기술을 활용한 계속 사전 학습을 통해 한 번에 처리할 수 있는 정보량인 컨텍스트 길이를 기존보다 2배 늘어난 64K 토큰까지 확장하는 데 성공했다.
실제 데몬스트레이션에서는 조건이 복잡하게 얽힌 '강 건너기 퍼즐' 같은 논리 문제에 대해서도 스스로 상황을 정리하고 안전한 조합을 점검하며 완벽한 답변 절차를 제시했다. 현재 사고 과정의 상당 부분은 영어로 생성되지만, 향후 일본어 기반의 사고를 가능하게 함으로써 처리 효율과 정밀도를 더욱 높일 계획이다.
PFN은 자체 개발 칩부터 인프라, 모델까지 일관되게 다루는 '수직 통합'의 강점을 활용해 컨텍스트 길이의 추가 확장과 고도화된 추론 능력 확보에 집중할 방침이다. 현재 모니터링 기업을 모집 중이며, 일본 산업계의 생성형 AI 실용화를 가속화할 핵심 모델로서 기대를 모으고 있다.