[사진출처: 교보문고]

로버트 액설로드(Robert Axelrod)의 책 <협력의 진화(The evolution of cooperation)> 중 '부록B 이론적 명제의 증명'을 필요한 곳만 뽑아서 역시나 제멋대로 정리해보겠습니다. 참고로 이 책은 1984년에 처음 나왔고 2006년에 개정판이 나왔으며 작년에 한국어로 번역되었습니다. 부록B는 240쪽부터입니다.

두 경기자가 참가하는 게임에서 각 경기자는 협력(C; cooperate)하거나 배반(D; defect)을 선택하며, 두 경기자가 모두 C를 하면 둘 다 보상 R(reward for mutual cooperation)을 얻고, 둘 다 배반하면 둘 다 처벌 P(punishment for mutual defection)를 얻습니다. 한쪽이 C를 하고 다른 쪽이 D를 하면 전자는 머저리 S(sucker's payoff)를, 후자는 유혹 T(temptation to defect)를 얻습니다. T > R > P > S이고 R > (T+S)/2이면 죄수의 딜레마(PD)가 됩니다. 반복적 죄수의 딜레마에서는 PD 게임을 한 번 할 때마다 중요도가 w만큼 줄어듭니다. w는 0과 1 사이의 값이며 할인계수(discount parameter)라 부릅니다.

반복 게임에서 전략은 이전의 전체 게임에 근거하여 현재 게임에서 어떤 선택을 할지를 가리키는 함수로 정의됩니다. 전략 A가 전략 B를 상대하여 얻은 가치나 점수를 V(A|B)로 나타냅니다. 만일 V(A|B) > V(B|B)이면 전략 A가 전략 B를 쓰는 집단을 침범한다(invade)고 부릅니다. B를 침범할 수 있는 전략이 없다면, B는 총체적으로 안정하다(collectively stable)고 합니다. (이 부분은 번역이 이상하여 아마존닷컴에서 원문을 확인했습니다. 수식에도 원문에는 없는 오타가 있네요;;;)

명제 1. w가 충분히 크면, 다른 경기자가 쓰는 전략과 독립적인 최선의 전략은 존재하지 않는다.

증명: 상대 경기자가 무조건 배반하는 전략을 쓴다면 나의 최선의 전략도 계속 배반하는 것이다. 상대가 내가 배반하기 전까지는 협력하고 내가 배반하면 그 다음부터는 계속 배반하는 전략(='영원한 보복' 전략)을 쓴다면 나에게 최선의 전략은 계속 협력하는 것이다. 내가 먼저 배반하여 일시적으로 T를 얻더라도 그 이후 상대가 계속 배반하여 내가 P만 얻고 R을 얻지 못하므로 결국 일시적 이득이 장기적 손해로 상쇄된다. w가 어느 정도 크다면 항상 그러하다. 증명 끝.

증명에 뭔가가 빠진 느낌이 듭니다. w가 어느 정도 작다면 상대의 전략과 독립적으로 배반이 나에겐 최선의 전략이라는 얘기가 있어야 할 것 같습니다.

명제 2. w가 (T-R)/(T-P)와 (T-R)/(R-S) 중 큰 값보다 클 때에만 TFT는 총체적으로 안정하다.

중명: 어떤 전략이 TFT를 맞이하여 할 수 있는 선택은 CC, CD, DC, DD 중 하나의 반복이다. CC는 TFT와 만나 V(TFT|TFT)와 똑같은 보수를 얻으므로 CC는 TFT를 침범할 수 없다. 협력과 배반을 번갈아 하는 CD가 TFT를 침범하지 못하는 조건은 V(CD|TFT) ≤ V(TFT|TFT)이다.

$$V({\rm TFT}|{\rm TFT})=R+wR+w^2R+\cdots=\frac{R}{1-w}$$

$$V({\rm CD}|{\rm TFT})=R+wT+w^2S+w^3T+\cdots=R+w\frac{T+wS}{1-w^2}$$

이므로 위 조건에 따라,

$$w\geq \frac{T-R}{R-S}\equiv w_1$$

이다. DC가 TFT를 상대로 얻는 보수는

$$V({\rm DC}|{\rm TFT})=T+wS+w^2T+w^3S+\cdots=\frac{T+wS}{1-w^2}$$

이며, DC가 TFT를 침범하지 못하는 조건은 위의 w에 대한 조건과 똑같다.

DD는 무조건 배반전략에 해당하며 이 전략이 TFT를 침범하지 못하는 조건은 V(DD|TFT) ≤ V(TFT|TFT)이다.

$$V({\rm DD}|{\rm TFT})=T+wP+w^2P+\cdots=T+\frac{wP}{1-w}$$

이므로,

$$w\geq \frac{T-R}{T-P}\equiv w_2$$

이다. 즉 w가 w1보다 크고 w2보다 크다면 어떤 전략도 TFT를 침범할 수 없다는 결론을 얻는다. 증명 끝.

역시 뭔가가 빠진 것 같습니다. CC, CD, DC, DD를 반복하는 것 외에도 무수히 많은 가능성이 존재하는데 그 모든 가능성이 저 네 가지 전략에 다 포함되거나 환원될 수 있는지는 모르겠네요.

특성화 정리. 상대의 누적 점수가 너무 커질 때마다, 즉

$$V_n(A|B)>V(B|B)-w^{n-1}[T+wP/(1-w)]$$

일 때, B가 n번째 게임에서 배반을 할 때에만 B는 총체적으로 안정하다.

증명은 따로 이 책에서 제시되지 않아서, 앞뒤 내용을 다음처럼 정리해보았습니다.

설명: Vn(A|B)는 n-1번째 게임까지 전략 A가 B를 만나 얻은 할인된 보수의 누적으로 정의된다. A가 n번째 게임 이후에 무엇을 하든 B가 A의 누적 보수를 낮게 묶어둘 수 있다면 B는 A의 침범을 막을 수 있다. 특히 n번째 이후로 B가 계속 배반한다면 A는 기껏해야 P를 얻을 수 있을 뿐이므로, 다음 조건을 만족한다면 B는 A에 대해 '안정적 위치'를 차지한다.

$$V_n(A|B)+\frac{w^{n-1}P}{1-w}\leq V(B|B)$$

그런데 B가 n번째 게임에서만 협력을 선택하고(이때 A는 배반하는 게 유리하다), n+1번째부터는 계속 배반하여 A의 최종 보수가 V(B|B)보다 커질 수도 있다.

$$V_n(A|B)+w^{n-1}\left[T+\frac{wP}{1-w}\right]> V(B|B)$$

즉 n-1번째 게임까지 A가 얻은 누적 보수 Vn(A|B)가 위 조건을 만족할 때에는 언제나 B는 배반을 선택해야 A의 침범을 막을 수 있다. 이 정리로 다음을 알 수 있다: 상대방이 너무 많은 점수를 쌓지 않는 한, 한 전략은 협력/배반 중 하나를 선택하면서도 여전히 총체적으로 안정할 수 있는 유연성을 지닌다. 설명 끝.

명제 3. 먼저 협력할 수 있는 임의의 전략 B는 w가 충분히 클 때에만 총체적으로 안정할 수 있다.

점점 정리하기 귀찮아지네요;;; 만일 무조건 배반전략(all D)과 B가 붙었는데 B가 첫 판에서 협력했다면 all D는 T를 얻겠죠. 하지만 그 다음부터는 서로 배반함으로써 wP/(1-w)밖에 얻지 못합니다. V(B|B)의 최대값은 R/(1-w)이므로 다음 조건이 만족될 때에만 무조건 배반전략이 B를 침범할 수 있습니다.

$$T+\frac{wP}{1-w}>\frac{R}{1-w},\ w<\frac{T-R}{T-P}\equiv w_2$$

즉 w가 w2보다 (충분히) 크면 all D가 첫 판에서 배반하여 얻은 이득이 이후의 손실(V(B|B)에 비해)로 상쇄된다고 볼 수 있습니다.

명제 4. 신사적 전략이 총체적으로 안정하려면 상대의 최초 배반을 응징해야 한다.

이 책에서 신사적 전략이란 상대보다 먼저 배반하지 않는 전략을 말합니다. 신사적 전략이 n번째 게임에서 상대의 배반을 응징하지 않으면 n번째 게임에서만 배반하는 규칙에 의해 침범당하기 때문에 총체적으로 안정하지 않다는 말이죠. w나 T, R, P, S와 상관없이 항상 총체적으로 안정한 전략은 무조건 배반전략이라네요. 이게 명제 5입니다.

이제 전략 B만 쓰는 동네에 A를 쓰는 신참자들이 소수 진입하는 그림을 그려봅니다. V(A|B) < V(B|B)라고 하겠습니다. 신참자가 하나씩 진입하면 바로바로 B에게 당하겠죠. 그래서 전략 A를 쓰는 신참자들이 '무리지어' 진입하여 신참자들끼리 p의 확률로 상호작용한다고 합시다. 그래서 만일

(식1) $$pV(A|A)+(1-p)V(A|B)>V(B|B)$$

이면 A는 B를 침범할 수 있습니다. B들에게는 A가 워낙 소수라 거의 존재감이 없다고 가정하여 우변은 그냥 V(B|B)로 씁니다. A의 비중이 높아져서 전체 인구의 q만큼을 차지하고, A들이 무작위 상호작용을 피할 이유가 줄어들었다면 위 식은 다음처럼 바뀌어야 합니다.

$$qV(A|A)+(1-q)V(A|B)>qV(B|A)+(1-q)V(B|B)$$

예를 들어, A가 TFT이고 B가 all D이며, T=5, R=3, P=1, S=0, w=0.9라고 하면, p > 1/21, q > 1/17입니다. 즉 TFT끼리 상호작용할 확률이 5% 정도만 되어도 B의 집단 내에서 번성할 수 있고, 그러다 무작위 상호작용을 하더라도, TFT를 쓰는 인구가 최소 6%만 되어도 나머지 94%인 all D를 침범할 수 있다는 말입니다. 다음 명제로 넘어갑시다.

명제 6. 최소의 p로 무리지어 all D를 침범할 수 있는 건 TFT처럼 최대 판별력을 가진 전략이다.

증명: 위의 (식1)을 다시 쓰면 다음과 같다.

$$p>\frac{V(B|B)-V(A|B)}{V(A|A)-V(A|B)}\equiv p^*$$

즉 전략 A를 가진 신참자들이 번성하기 위한 p의 최소값 p*가 V들의 함수로 얻어진다. B는 all D이며, p*가 최소가 되는 전략 A의 특성이 무엇인지 보고자 한다. p*가 최소가 되려면 V(A|A)와 V(A|B) 모두 최대여야 한다. (참고로 p*는 V(A|B)의 단조감소함수다.) 즉 V(A|all D)가 최대가 되려면 A 역시 배반으로 맞서야 한다. V(A|A)가 최대가 되려면 처음부터 배반하지 않고 서로 협력만 해야 한다. 다시 말해서 all D에는 배반하고 자기들끼리는 협력하는 전략일 때 p*를 최소로 만들 수 있다. 상대에 따라 뚜렷한 차이를 보여주는 성질을 판별력이라 하고, 방금 말한 상황이 최대 판별력을 보여주는 상황이다. 이러한 최대 판별력을 가진 전략은 TFT가 있다. 증명 끝.

명제 7. 신사적 전략이 한 개체에 의해 침범당할 수 없다면 개체들이 모인 어떤 무리에 의해서도 침범당하지 않는다.

증명: all D 집단은 TFT들의 (소수) 무리에 의해 침범당할 수 있었다. TFT 개인은 all D 개인에게 지지만 TFT끼리의 상호작용에서 얻는 보수가 꽤 크기 때문이다. 반대인 경우, 신사적 전략 B의 집단이 전략 A의 개인에게 침범당하지 않는다고 하자: V(A|B) < V(B|B). 그런데 신사적 전략끼리의 보수는 다른 전략끼리의 보수보다 크거나 같으므로, 즉 V(A|A) ≤ V(B|B)이므로, 어떤 p에 대해서도 (식1)을 만족시킬 수 없다. 증명 끝.

명제 8. 어떤 전략이 총체적으로 안정하면, 세력권적으로도 안정하다.

책에서 말하는 '세력권'은 territoriality을 번역한 겁니다. 쉽게 말해 2차원 격자 위에서 해보자는 얘기로 보입니다. 총체적 안정성이 무작위 상호작용을 전제한 것이라면, 이보다 국소적인 상호작용 또는 무리짓기/유유상종을 뜻하는 세력권에서의 안정성 역시 자연스러운 결과라고 할 수 있습니다.

이로써 본문에서 제시되고 때론 증명된 명제들을 다시 모아 정리해놓은 부록B를 다 훑어봤습니다. 끝.