PFN、LLMの「日本語の自然さ」を評価する新手法を検証
- •PFNが日本語LLMの「出力の自然さ」を正確に測定する評価手法を検証
- •従来の自動評価では判別困難な日本語の違和感を特定する手法を開発
- •人間の模範解答と比較する「相対評価プロンプト」が有効性を発揮
Preferred Networks(PFN)は、独自開発のLLM「PLaMo」の開発プロセスにおいて、日本語の応答がどれだけ自然かを測定する新たな評価手法の検証結果を公開しました。現在、日本語LLMの評価には「ELYZA-tasks-100」などが広く使われていますが、これまでの評価方法では、内容が正しくても言葉遣いや文脈が不自然な回答を正確に減点できないという課題がありました。特に海外製の強力なモデルであっても、日本語特有のニュアンスや論理構造に違和感が残るケースがあり、これを自動で識別することは、Foundation Modelを評価する現行のAI(LLM-as-a-Judge)にとっても難易度の高いタスクとなっています。
調査では、単純に「自然さを5段階で評価せよ」という指示だけでは、AI判定者が甘いスコアを付ける「天井効果」が確認されました。そこでPFNは、人間が作成した高品質な「模範解答」を比較対象として提示し、AIにどちらがより自然かを判定させる「相対評価」の手法を導入しました。このアプローチにより、日本語の学習量が多いモデル(PLaMo-2.2-Primeなど)と、翻訳調の不自然さが残るモデルとの差を明確に数値化することに成功しました。これにより、一見すると満点に近いスコアでも、実際には人間レベルの自然さには届いていないという「改善の余地」を可視化できるようになったのです。
この検証結果は、単に「正解を出す」能力だけでなく、日本のユーザーにとって違和感のない「自然な対話」を実現するための重要なステップとなります。PFNは、判定コストを抑えつつ精度の高い評価を継続することで、より使いやすい国産LLMの開発を加速させる方針です。推論能力が注目される昨今のAI開発ですが、今回の研究は、母国語としての「言葉の自然さ」という基礎体力を客観的なBenchmarkで測定することの重要性を改めて浮き彫りにしました。