NVIDIA、多重報酬強化学習を劇的に改善する新手法「GDPO」を発表 | KnowAI Space