Amazon Bedrock、強化学習ファインチューニングで精度を66%向上
- •Amazon Bedrockが強化学習による自動化されたモデルカスタマイズ機能の提供を開始した。
- •この強化学習手法の導入により、特定のタスクでベースモデルと比較して平均66%の精度改善が確認されている。
- •Amazon Nova 2 Liteに対応し、客観的ルールのRLVRとAI評価によるRLAIFの2つの最適化手法を利用できる。
Amazon Web Services(AWS)は、Amazon Bedrockにおいて強化学習を用いた新たなファインチューニング機能を発表した。この機能は、膨大なラベル付きデータセットを必要とせずに、開発者がより高精度なモデルを構築できるよう設計された革新的なソリューションである。従来のAI改善プロセスでは、人間が修正した数千ものサンプルを用意する必要があり、多大な時間とコスト、そして労力を要する点が大きな課題となっていた。今回導入されたシステムは、正解や有益な回答に対して報酬を与えるフィードバック駆動型の学習手法(強化学習)を採用しており、これにより特定のタスクにおいてベースモデルと比較して平均66%という劇的な精度向上を実現したのである。
最適化の手法としては、主に2つの高度なアプローチが統合されている。一つ目の「検証可能な報酬による強化学習(RLVR)」は、数学の計算やプログラミングコードの生成といった、客観的なルールに基づいて正誤を判定できるタスクの評価に最適化されている。二つ目の「AIフィードバックによる強化学習(RLAIF)」は、文章のトーンの調整やコンテンツのモデレーション、要約の質といった、人間による主観的な判断が必要となるタスクに対し、別のAIモデルを評価者として活用する仕組みである。AWSのプリンシパル・デベロッパー・アドボケイトを務めるドニー・プラコソ氏は、これらの高度なツールがBedrockの管理コンソールを通じて一般の開発者でも容易にアクセス可能になったことを強調している。これにより、深い機械学習の専門知識や複雑なインフラの構築・管理を行うことなく、最先端のモデル最適化の恩恵を享受できる環境が整った。
本サービスは提供開始時点でAmazon Nova 2 Liteモデルを強力にサポートしており、企業は小型で高速、かつコスト効率の高いモデルを、はるかに大規模なモデルに匹敵するパフォーマンスで運用することが可能となる。ユーザーは独自のPythonコードを用いたカスタムロジックや、既存の基盤モデルを「審判」として利用することでフィードバックを詳細に定義でき、ビジネスニーズに即した柔軟なカスタマイズが実現されている。特筆すべきは、この学習プロセス全体がセキュアなAWSの環境内で完結する点である。組織は独自の機密データや知的財産のプライバシーと保護を完全に維持したまま、自社専用のAIエージェントシステムを継続的に洗練させることが可能だ。このアップデートは、実用的なAIアプリケーションの展開を検討する企業にとって、コストと性能のトレードオフを解消する強力な武器となるだろう。