この記事の要点は？

AWSがSageMaker AI上で、大規模言語モデル（LLM）の公平な評価を自動化する「Amazon Nova LLM-as-a-Judge」を公開した。 2つの回答を比較するペアワイズ評価と95%信頼区間を用い、モデル性能を精密に測定する新ツールを導入した。 Nova判定モデルは0.76の評価バイアス・スコアを記録し、多様なタスクで人間の好みを高精度に反映している。

AWS、SageMaker AIで評価用AI「Amazon Nova」を提供開始

•AWSがSageMaker AI上で、大規模言語モデル（LLM）の公平な評価を自動化する「Amazon Nova LLM-as-a-Judge」を公開した。
•2つの回答を比較するペアワイズ評価と95%信頼区間を用い、モデル性能を精密に測定する新ツールを導入した。
•Nova判定モデルは0.76の評価バイアス・スコアを記録し、多様なタスクで人間の好みを高精度に反映している。

•AWSがSageMaker AI上で、大規模言語モデル（LLM）の公平な評価を自動化する「Amazon Nova LLM-as-a-Judge」を公開した。
•2つの回答を比較するペアワイズ評価と95%信頼区間を用い、モデル性能を精密に測定する新ツールを導入した。
•Nova判定モデルは0.76の評価バイアス・スコアを記録し、多様なタスクで人間の好みを高精度に反映している。

正確性やBLEUスコアといった従来の指標では、生成AIが出力する創造性やビジネス上の整合性といった繊細なニュアンスを捉えきれないことが多い。これに対処するため、AWSはAmazon SageMakerにおいて、Novaモデルの推論能力を活用して他のAIシステムを評価する「Amazon Nova LLM-as-a-Judge」を導入した。この「判定役」モデルを活用することで、企業は硬直化したルールを脱却し、人間の主観的な判断を模したより柔軟な評価体制へと移行できるようになる。

システムの仕組みは「二者択一の総合評価」に基づいており、モデルが2つの出力を並べて比較し、勝者または引き分けを判定する。この手法によって、勝率や95%信頼区間を含む厳格な統計データが生成されるため、開発者はモデルの更新が真の改善なのか、それとも単なるランダムな変動である統計的ノイズなのかを正確に見極めることが可能だ。また、このツールは低遅延に最適化されており、トレーニングパイプライン内での自動スコアリングにも適している。

公平性を確保するため、Novaは人間が注釈を付けた事例に基づき、教師あり学習と強化学習を組み合わせてトレーニングされた。その結果、コーディングやクリエイティブ・ライティングなどの多様なタスクにおいて、人間の判断との乖離が少ない客観的な判定を実現している。これらのワークフローをAmazon SageMakerに直接統合することで、AWSはプロトタイプから本番運用への移行を効率化し、信頼性の高い評価をわずか数分で実行できる環境を提供した。

正確性やBLEUスコアといった従来の指標では、生成AIが出力する創造性やビジネス上の整合性といった繊細なニュアンスを捉えきれないことが多い。これに対処するため、AWSはAmazon SageMakerにおいて、Novaモデルの推論能力を活用して他のAIシステムを評価する「Amazon Nova LLM-as-a-Judge」を導入した。この「判定役」モデルを活用することで、企業は硬直化したルールを脱却し、人間の主観的な判断を模したより柔軟な評価体制へと移行できるようになる。

システムの仕組みは「二者択一の総合評価」に基づいており、モデルが2つの出力を並べて比較し、勝者または引き分けを判定する。この手法によって、勝率や95%信頼区間を含む厳格な統計データが生成されるため、開発者はモデルの更新が真の改善なのか、それとも単なるランダムな変動である統計的ノイズなのかを正確に見極めることが可能だ。また、このツールは低遅延に最適化されており、トレーニングパイプライン内での自動スコアリングにも適している。

公平性を確保するため、Novaは人間が注釈を付けた事例に基づき、教師あり学習と強化学習を組み合わせてトレーニングされた。その結果、コーディングやクリエイティブ・ライティングなどの多様なタスクにおいて、人間の判断との乖離が少ない客観的な判定を実現している。これらのワークフローをAmazon SageMakerに直接統合することで、AWSはプロトタイプから本番運用への移行を効率化し、信頼性の高い評価をわずか数分で実行できる環境を提供した。

AWS、SageMaker AIで評価用AI「Amazon Nova」を提供開始

タグ