この記事の要点は？

Amazonが自動評価報酬を通じてNovaモデルをカスタマイズする「強化微調整（RFT）」を導入した。 RFTは検証可能な報酬（RLVR）とAIフィードバック（RLAIF）を活用し、複雑な推論タスクを最適化する。この手法により、コーディングや数学、ブランド特化の対話においてトークン使用量を削減し、効率を向上させる。

Amazon、Nova向け「強化微調整」機能を発表

•Amazonが自動評価報酬を通じてNovaモデルをカスタマイズする「強化微調整（RFT）」を導入した。
•RFTは検証可能な報酬（RLVR）とAIフィードバック（RLAIF）を活用し、複雑な推論タスクを最適化する。
•この手法により、コーディングや数学、ブランド特化の対話においてトークン使用量を削減し、効率を向上させる。

•Amazonが自動評価報酬を通じてNovaモデルをカスタマイズする「強化微調整（RFT）」を導入した。
•RFTは検証可能な報酬（RLVR）とAIフィードバック（RLAIF）を活用し、複雑な推論タスクを最適化する。
•この手法により、コーディングや数学、ブランド特化の対話においてトークン使用量を削減し、効率を向上させる。

Amazonは、膨大な手間を要する手動のデータラベル付け作業から脱却し、企業がAIをカスタマイズするための手法を大きく進化させている。従来の教師あり微調整（SFT）では数千もの完璧な回答例を用意する必要があったが、Amazon Novaモデル向けの新しい「強化微調整（RFT）」は、「評価による学習」へと焦点を移した。これは、モデルに思考のプロセスを直接教え込むのではなく、テストケースや品質基準を用いて「正解」の定義のみを提示する手法である。これにより、モデルは自ら様々な推論経路を探索し、最も効率的な解決策を自律的に発見できるようになる。

このシステムは主に2つのフィードバックメカニズムを利用している。まず「RLVR」は、コンピュータスクリプトで正誤を判定できる数学やコーディングなど、客観的なタスクの最適化に威力を発揮する。一方で「RLAIF」は、別の「AIジャッジ」を使用して、カスタマーサービスの回答が親切であるか、あるいは企業のブランドイメージに合致しているかといった、より主観的な品質を評価するものだ。これらの仕組みを使い分けることで、多様なビジネスニーズに対応した調整が可能となる。

このアプローチは、高度な推論機能を備えたNova 2ファミリーと組み合わせることでその真価を発揮する。RFTによってモデル内部の「思考」ステップが最適化されると、回答の精度が向上するだけでなく、タスク完了に必要なトークン（AIが処理するテキストの基本単位）の数も削減できる。その結果、Amazon BedrockやSageMakerといったAWSプラットフォーム上でモデルを大規模に運用する企業は、より迅速なレスポンスと劇的な運用コストの低減を同時に享受できるのである。

Amazonは、膨大な手間を要する手動のデータラベル付け作業から脱却し、企業がAIをカスタマイズするための手法を大きく進化させている。従来の教師あり微調整（SFT）では数千もの完璧な回答例を用意する必要があったが、Amazon Novaモデル向けの新しい「強化微調整（RFT）」は、「評価による学習」へと焦点を移した。これは、モデルに思考のプロセスを直接教え込むのではなく、テストケースや品質基準を用いて「正解」の定義のみを提示する手法である。これにより、モデルは自ら様々な推論経路を探索し、最も効率的な解決策を自律的に発見できるようになる。

このシステムは主に2つのフィードバックメカニズムを利用している。まず「RLVR」は、コンピュータスクリプトで正誤を判定できる数学やコーディングなど、客観的なタスクの最適化に威力を発揮する。一方で「RLAIF」は、別の「AIジャッジ」を使用して、カスタマーサービスの回答が親切であるか、あるいは企業のブランドイメージに合致しているかといった、より主観的な品質を評価するものだ。これらの仕組みを使い分けることで、多様なビジネスニーズに対応した調整が可能となる。

このアプローチは、高度な推論機能を備えたNova 2ファミリーと組み合わせることでその真価を発揮する。RFTによってモデル内部の「思考」ステップが最適化されると、回答の精度が向上するだけでなく、タスク完了に必要なトークン（AIが処理するテキストの基本単位）の数も削減できる。その結果、Amazon BedrockやSageMakerといったAWSプラットフォーム上でモデルを大規模に運用する企業は、より迅速なレスポンスと劇的な運用コストの低減を同時に享受できるのである。

Amazon、Nova向け「強化微調整」機能を発表

タグ