AI 정렬의 새로운 지평: 목표 지향을 넘어 덕 윤리로
2026년 2월 19일 (목)
- •에세이는 AI 정렬을 위해 목표 지향적 최적화 대신 '에우다이모니아적 합리성'을 대안으로 제안한다.
- •AI가 유틸리티 함수를 최대화하기보다 인간의 주체성을 닮은 '실천적 관행'을 따라야 한다는 프레임워크를 제시한다.
- •덕 윤리적 접근법을 통해 인간의 번영과 결과 중심적 AI 시스템 사이의 근본적인 괴리를 해결하고자 한다.
현재 AI 안전성 연구는 모델을 특정 목표나 유틸리티 함수에 정렬하는 데 주로 집중하고 있다. 하지만 최근 발표된 한 에세이에 따르면, 이러한 구조는 인간이 실제로 세상을 살아가는 방식과 근본적으로 상충한다. 인간은 단지 최종 목표만을 쫓는 것이 아니라, 수학이나 우정처럼 행동과 평가, 자원이 얽혀 있는 '관행'에 참여하며 살아간다. 이에 따라 에이전트의 행동이 외부의 최적화 목표가 아닌 이러한 내부적 관행에 부합할 때 합리적이라고 보는 것이 에우다이모니아적 합리성이다.
저자는 이를 설명하기 위해 'x를 x답게 장려하라(promote x x-ingly)'는 공식을 도입했다. 예를 들어 친절을 소중히 여긴다는 것은 단순히 세상의 친절 총량을 늘리는 것이 아니라, 친절한 방식으로 친절을 베푸는 것을 의미한다. 특히 AI를 결과만을 중시하는 최적화 도구에서 과정의 탁월함을 추구하는 에우다이모니아적 에이전트로 전환한다면, 인간의 가치가 기계에게 파편화되어 전달되는 문제를 해결할 수 있을 것으로 기대된다.
이러한 변화는 모델의 하위 루틴이 강화 학습 과정에서 의도치 않은 목표를 갖게 되는 내부 정렬 문제를 완화하는 데에도 기여한다. 에우다이모니아적 에이전트는 가치 자체가 추론 구조에 녹아 있기 때문에 이러한 외부 압력에 더 견고하게 설계될 수 있다. 실제로 투명성이나 수정 가능성을 단순한 제약이 아닌 상시 작동하는 '덕목'으로 다룸으로써, 인간과 협업하기에 더 안전하고 이해하기 쉬운 시스템을 구축할 수 있다.