Amazon、ファインチューニングでAIエージェントを高度化
2026年1月25日 (日)
- •Amazonは、薬局特化型の推論モデル導入により、調剤ミスを33%削減した。
- •Amazon Global Engineeringのマルチエージェント連携により、施設点検業務の工数を80%削減。
- •GRPOやDAPOといった高度な技術を用いて、企業のAIエージェントの推論プロセスを最適化している。
Amazonの報告によれば、プロンプトエンジニアリングやRAGだけでは不十分なケースが増えている。高い信頼性が不可欠なエンタープライズ用途の約4分の1で、高度なファインチューニングが必要だという。特にミスが許されないヘルスケアや物流分野では、その傾向が顕著である。実際にAmazon Pharmacyでは、製薬特有のロジックを学習させることで、危険な調剤ミスを33%も削減することに成功した。
現在、AIのトレンドは単一のチャットボットから、専門化された「サブエージェント」が連携するマルチエージェント構築へと移行している。ここで鍵となるのが、Group Relative Policy Optimization (GRPO)といった最新の最適化手法だ。これは、モデル自身の平均的な回答よりも優れた推論に対して報酬を与える仕組みである。個別の回答を評価する従来の手法とは異なり、回答群を比較することでモデル内部の「思考の連鎖 (CoT)」を研ぎ澄ませていく。
さらにAmazonは、Direct Advantage Policy Optimization (DAPO)を活用し、長い推論プロセスの途中で生じる誤りを修正している。これにより、エージェントは目標を見失ったりハルシネーション(幻覚)を起こしたりすることなく、一貫した計画を維持できるのだ。AI活用が成熟期に入る中、企業の競争力は基盤モデルをそのまま使うことではなく、ドメイン固有のニュアンスに合わせて推論エンジンをいかに最適化できるかにかかっている。