다음 보수 행렬에서 T > R > P > S이고 R > (T+S)/2일 때 죄수의 딜레마(PD)가 된다고 했습니다.

$$\begin{array}{c|c|c} \hline & C & D \\ \hline C & R,\ R & S,\ T \\ D & T,\ S & P,\ P \\ \hline \end{array}$$

첫번째 조건인 T > R > P > S만으로도, 각 경기자의 최적 전략은 배반이지만, 서로 협력할 때가 서로 배반할 때보다 낫다는 교훈을 주고 있습니다. 그렇다면 두번째 조건인 R > (T+S)/2가 만족되지 않는 경우에는 어떻게 될까요? 두 경기자가 서로 협력하는 대신 한 쪽만 협력하고 다른 쪽은 배반하는 게 '사회적으로'도 최적이라면, 배반자들은 '사회의 최적' 운운하며 희생양 역할을 할 협력자를 찾으러 다닐지도 모릅니다. 끔찍하고 무시무시한 상황이죠. 이런 문제는 어떻게 해결할 수 있을지 궁금해집니다.

앞글에서 여러 명제들을 살펴보았는데, 보충할 내용이 있습니다. 어떤 전략 A에 대해 V(A|A)의 최대값은 서로 협력만 하는 경우에 나온다는 걸 엄밀하게 보여주지 않은 듯 해서요. 서로 협력하면 서로 배반할 때보다야 좋지만 상대가 협력할 때 배반함으로써 얻는 이득(T)에 의한 효과를 극대화하는 전략이라면 서로 협력할 때보다 높은 보수를 얻을 수 있지 않을까 하는 문제입니다. 하지만 상대가 나와 똑같은 전략을 쓰고 있으므로 나도 똑같이 당할 거라는 걸 염두에 두어야겠죠.

나이브하게 생각해서, 매 게임마다 p의 확률로 협력하고 1-p의 확률로 배반하는 전략을 쓴다고 합시다. 물론 상대방도 똑같은 전략을 씁니다. 그럼 한번 게임할 때 다음과 같은 기대보수를 얻습니다.

$$p^2R+p(1-p)(T+S)+(1-p)^2P$$

PD 게임이 성립할 두 조건에 의해 이 보수는 R보다 작습니다. 상대가 나와 같은 전략을 쓰기 때문에 나도 그대로 당할 수밖에 없으며, 그렇게 얻은 배반에 의한 이익과 협력에 의한 손해의 평균, 즉 (T+S)/2보다 R이 크므로 결국 서로 협력하는 것만이 최선임을 알 수 있습니다. 각 게임에서 최선은 서로 협력을 통해 R을 얻는 것이고, 할인계수를 고려하면 결국 R/(1-w)가 V(A|A)의 최대값이라는 결론을 얻습니다.