この記事の要点は？

Q: この記事の要点は？

PFNが国産LLM「PLaMo 2.2 Prime」を公開、指示追従能力と医療性能を大幅強化 英語ベンチマークIFBenchで前モデル比約10%改善、独自開発のJFBenchでも高スコア 医師国家試験で正解率70.7%を達成、実務に即したマルチターン対話性能も向上

PFNが国産LLM「PLaMo 2.2 Prime」を公開、指示追従能力と医療性能を大幅強化英語ベンチマークIFBenchで前モデル比約10%改善、独自開発のJFBenchでも高スコア医師国家試験で正解率70.7%を達成、実務に即したマルチターン対話性能も向上

PLaMo 2.2 Primeをリリース

•PFNが国産LLM「PLaMo 2.2 Prime」を公開、指示追従能力と医療性能を大幅強化
•英語ベンチマークIFBenchで前モデル比約10%改善、独自開発のJFBenchでも高スコア
•医師国家試験で正解率70.7%を達成、実務に即したマルチターン対話性能も向上

Preferred Networks（PFN）は、国産の生成AI基盤モデル「PLaMo」の最新バージョンである「PLaMo 2.2 Prime」をリリースしました。今回のアップデートは、同社が収集した社内外のフィードバックに基づき、事後学習データを大幅に増強することで、モデルがユーザーの指示を正確に理解して遂行する「指示追従」能力や、高度な専門性を要する医療ドメインでの性能を一段と引き上げた点が特徴です。

技術的なハイライトとして、LLMが「文字数制限」や「出力形式の指定」といった具体的な制約を守れるかを評価するベンチマーク「IFBench」において、前モデルの29.0%から37.8%へと10%近い改善を果たしました。これは、テキストベースで思考プロセスを出力する推論モデルと比べ、生成トークン数を抑えつつ高い指示遵守を実現したことを意味します。さらに、日本語のニュアンスやフォーマット制約をより厳密に評価するため、PFNは独自のベンチマーク「JFBench」を開発・公開しており、そこでもフロンティアモデルに比肩する性能を実証しました。

実務応用を見据えた「マルチターン・ロールプレイ能力」の向上も重要です。これは、AIが特定のキャラクターになりきり、会話の文脈を維持しながら複数回のやり取りを継続する能力を指します。PFNが提供するAI面接サービス「Talent Scouter」の知見を活かしたデータセットで学習を行うことで、前モデル比で15%以上の性能向上を達成しました。これにより、チャットボットが「一度の発言は3文以内」といった厳格な対話ルールを守りながら、自然で実用的な顧客対応を行うことが可能になります。

医療分野においては、臨床文書の矛盾を検出・訂正する「MedRECT-ja」や、日本の医師国家試験（JMLE）を評価指標に採用しています。特に対象期間の国家試験過去問を用いたテストでは、正解率70.7%という高い水準に到達しました。依然としてトップクラスのフロンティアモデルには改善の余地を残すものの、着実な進化を遂げています。PFNは自社開発の計算基盤である「MN-Core」やライブラリ群を活用し、チップからモデル、ソリューションまでを一気通貫で手がける垂直統合の強みを活かして、今後も日本の生成AI開発を牽引していく方針です。

Preferred Networks（PFN）は、国産の生成AI基盤モデル「PLaMo」の最新バージョンである「PLaMo 2.2 Prime」をリリースしました。今回のアップデートは、同社が収集した社内外のフィードバックに基づき、事後学習データを大幅に増強することで、モデルがユーザーの指示を正確に理解して遂行する「指示追従」能力や、高度な専門性を要する医療ドメインでの性能を一段と引き上げた点が特徴です。

技術的なハイライトとして、LLMが「文字数制限」や「出力形式の指定」といった具体的な制約を守れるかを評価するベンチマーク「IFBench」において、前モデルの29.0%から37.8%へと10%近い改善を果たしました。これは、テキストベースで思考プロセスを出力する推論モデルと比べ、生成トークン数を抑えつつ高い指示遵守を実現したことを意味します。さらに、日本語のニュアンスやフォーマット制約をより厳密に評価するため、PFNは独自のベンチマーク「JFBench」を開発・公開しており、そこでもフロンティアモデルに比肩する性能を実証しました。

実務応用を見据えた「マルチターン・ロールプレイ能力」の向上も重要です。これは、AIが特定のキャラクターになりきり、会話の文脈を維持しながら複数回のやり取りを継続する能力を指します。PFNが提供するAI面接サービス「Talent Scouter」の知見を活かしたデータセットで学習を行うことで、前モデル比で15%以上の性能向上を達成しました。これにより、チャットボットが「一度の発言は3文以内」といった厳格な対話ルールを守りながら、自然で実用的な顧客対応を行うことが可能になります。

医療分野においては、臨床文書の矛盾を検出・訂正する「MedRECT-ja」や、日本の医師国家試験（JMLE）を評価指標に採用しています。特に対象期間の国家試験過去問を用いたテストでは、正解率70.7%という高い水準に到達しました。依然としてトップクラスのフロンティアモデルには改善の余地を残すものの、着実な進化を遂げています。PFNは自社開発の計算基盤である「MN-Core」やライブラリ群を活用し、チップからモデル、ソリューションまでを一気通貫で手がける垂直統合の強みを活かして、今後も日本の生成AI開発を牽引していく方針です。

PLaMo 2.2 Primeをリリース

タグ