JFBench: 実務レベルの日本語指示追従性能を備えた生成AIを目指して
- •PFNは、実務レベルの日本語における指示追従性能を評価するためのベンチマーク「JFBench」を公開した。
- •JFBenchは、日本特有の文化的ニュアンスや複雑な複数指示への対応を含む、174種類の制約条件を備えている。
- •PLaMo 2.2 Primeは、事後学習(ポストトレーニング)でJFBenchを活用することで、GPT-5.1に匹敵する性能を達成した。
Preferred Networks(PFN)は、日本語特有の言語構造や緻密な文化的背景を正確に評価・改善するための新たなベンチマーク「JFBench」を公開した。
これまでAIの指示追従性能を測定するベンチマークの多くは英語圏で開発され、翻訳版では「敬体・常体」の使い分けや、ひらがな・カタカナ・漢字が複雑に混在する日本語独自のニュアンスを十分に捉えきれないという課題があった。
JFBenchは、実務現場で頻出する「JSON形式での厳密な出力」といったフォーマット指定から、日本の商習慣に即した電話番号や住所の表記、さらには特定の文字使用の制限まで、174種類もの多岐にわたる制約を網羅している。特に重要なのは、単一の指示ではなく「最大8つの独立した制約を同時に満たす」能力を評価できる点だ。これにより、ユーザーが求める高度かつ複雑な要求に対して、AIがどの程度忠実に応答できるかを実務レベルで可視化することが可能になった。
今回のプロジェクトでは、JFBenchを評価指標としてだけでなく、学習データセット「JFTrain」としても活用している。このデータを用いて「教師ありファインチューニング」や「直接選好最適化(DPO)」といった事後学習のプロセスを最適化した結果、同社の純国産モデル「PLaMo 2.2 Prime」は、最新のフロンティアモデルであるGPT-5.1に匹敵する極めて高い指示追従性能を実現した。
PFNはこのベンチマークのソースコードをGitHub上で一般公開しており、国内のAI開発コミュニティ全体の底上げに寄与する姿勢を見せている。指示追従能力は、将来的にAIが自律的にタスクを遂行する「AIエージェント」を実現するための根幹となる技術であり、日本語環境に特化したこの取り組みは、国産生成AIの社会実装を加速させる大きな一歩となるでしょう。