AI性能評価の信頼性を検証する新指標「Benchmark^2」の衝撃 | KnowAI Space