徳倫理学によるAIアライメントの新境地
2026年2月19日 (木)
- •目標最適化に代わる「幸福主義的合理性」によるAIアライメントが提案された。
- •効用最大化ではなく、人間の主体性を模した「実践」の遵守をAIのフレームワークとして推奨している。
- •徳倫理学的アプローチにより、人間の繁栄とAIの計算ロジックの間にある「型の不一致」の解消を目指す。
現在のAI安全性は、モデルを特定の目標や効用関数に適合させることに主眼を置いている。しかし、あるエッセイは、こうした構造は人間の本来の在り方と根本的に乖離していると指摘する。人間は単に最終目標を追求するのではなく、数学や友情といった営みを構成する「実践」——すなわち行動、評価、資源が編み合わさったネットワーク——に関与している。この「幸福主義的合理性」の観点では、エージェントの行動は外部の最適化目標ではなく、こうした内部的な実践と一致して初めて合理的となるのだ。
著者はこの概念を「xをxらしく促進する」という表現で説明している。例えば、親切を重んじるとは、単に世界の親切の総量を最大化することではなく、自らが親切な振る舞いを通じて親切を促進することを指す。AIを、結果のみを追い求める帰結主義的な最適化主体から、プロセスの卓越性そのものに価値を見出す「幸福主義的エージェント」へと進化させる。これにより、人間の複雑な価値観が機械には脆く見えてしまうという、根本的なミスマッチを解決できる可能性がある。
このアプローチは、強化学習の過程でモデル内部に予期せぬ目標が生じる「内部アライメント」問題の抑制にも寄与するだろう。幸福主義的なエージェントは、価値観が推論プロセスの構造そのものに組み込まれているため、外部からの圧力に対してより堅牢であるとされる。透明性や修正可能性を単なる制約ではなく、常に備えるべき「徳」として扱うことで、人間にとってより安全で理解しやすいシステムの実現が期待される。