<이타적 인간의 출현>을 읽고 어제밤에 쓴 글에서는 숫자나 수식 없이 말로만 때웠는데 책에 나오는 내용을 바탕으로 산수를 조금 해보겠습니다. 사실 제가 이 책에 담긴 내용을 온전히 이해하지도 못했고 오해한 것도 있을테니 틀렸다거나 보충이 필요하면 말씀해주세요. 그리고 쓰다보니 책 내용을 요약한 부분과 그에 대한 제 해석이 분명히 구분되지 않는 부분도 있고 저도 명쾌하지 않은 부분들이 있네요;;;

여튼 아래 보수행렬(payoff matrix)을 봅시다.

$$\begin{array}{c|c|c} \hline & C & D \\ \hline C & b-c,\ b-c & -c,\ b \\ D & b,\ -c & 0,\ 0 \\ \hline \end{array}$$

b > c이면 위 행렬은 죄수의 딜레마를 나타냅니다. 왼쪽 열의 C와 D는 경기자 1의 전략이며 맨 윗줄의 C와 D는 경기자 2의 전략입니다. C는 협조, D는 배반이고요. 협조하는 사람은 c만큼 보수가 줄어들지만(즉 -c) 동시에 상대방의 보수를 b만큼 늘립니다(즉 +b). 이타적 행위는 이처럼 자신의 비용을 감수하면서까지 상대방에게 이득을 주는 행위를 말합니다. 하지만 바로 그렇기 때문에 아무것도 안하고 받아먹기만 하는 D가 각 경기자에게 우월한 전략이 되고 결국 둘 다 배반함으로써 각각 0의 보수를 얻습니다. 둘 다 협조했다면 0보다 큰 b-c를 각각 얻었을텐데 말이죠.

이제 혈연선택 가설을 볼까요. 만일 상대 경기자가 나와 r의 비율로 같은 유전자를 갖고 있다면 내가 상대를 도움으로써 나에게도 그만큼 이득이 됩니다. 나의 협조에 의해 상대의 유전자가 b만큼 이득을 얻었다면 그중 나와 같은 유전자에게는 rb만큼 이득이겠죠. 즉 모든 -c에서 rb만큼 보상이 이루어집니다.

$$\begin{array}{c|c|c} \hline & C & D \\ \hline C & b-c+rb,\ b-c+rb & -c+rb,\ b \\ D & b,\ -c+rb & 0,\ 0\\ \hline \end{array}$$

여기서 r > c/b이면 C가 D보다 우월해집니다. (책 87-91쪽 참고; 표 8(B)에 오타가 하나 있네요.)

다음으로 반복-상호성 가설을 봅시다(책 114-121쪽 참고). 우선 전략은 C와 D로만 표현되지 않습니다. 게임을 반복하면서 매번 C를 낼지 D를 낼지 선택하는 전략이 필요해집니다. 어떤 경기자의 전략은 예를 들자면 이렇게 쓸 수 있겠죠: 첫 회에서는 C, 2회에서는 D, 3회에서는 D, 4회에서는 C, ... 만일 게임이 무한히 반복된다면 이 전략도 무한히 길어져야 하는데 아무래도 비현실적이죠.

그래서 가장 단순하게 만들 수 있는 전략은 '무조건 C(all C)' 또는 '무조건 D(all D)'입니다. 게임의 횟수나 상대의 전략이나 자신이 그때까지 얻은 보수와 상관없이 걍 무조건 C(또는 D)를 내면 속이 편하겠죠;;; 무조건 협조전략과 무조건 배반전략이 붙으면 후자가 늘 전자를 착취합니다. 게임을 n번 하고 나면 무조건 협조는 -nc, 무조건 배반은 +nb의 보수를 얻지요. 뻔한 결과입니다.

다음으로 무조건 D를 보복/응징할 수 있는 '눈에는 눈, 이에는 이(tit for tat; TFT)' 전략을 생각해봅시다. 첫 회에는 C를 내고 다음 회부터는 바로 전 회에서 상대방이 낸 전략을 그대로 냅니다. 이전 회에서 상대가 C였다면 이번 회에서 나는 C를 내고, D일 때도 마찬가지입니다.

TFT와 무조건 D가 붙으면, 첫 회에서 TFT는 C를 냈으니 -c, 무조건 D는 +b, 그리고 다음 회부터는 서로 D만 내므로 1회의 결과가 최종 결과가 됩니다. TFT와 TFT가 붙는 경우, 역시 서로 C만 계속 내고 이때 둘 다 각 회마다 b-c의 보수를 얻습니다. 이제 여기에 새로운 변수를 하나 추가하는데, 한 번 게임하고 다음번 게임을 할 확률 δ입니다. 즉 게임의 횟수가 1로 끝날 때도 있고 더 길어질 때도 있습니다. 두 TFT가 붙어서 서로 C만 내는 경우 이들의 보수는 다음처럼 주어집니다.

$$(b-c)+(b-c)\delta+(b-c)\delta^2+\cdots=\frac{b-c}{1-\delta}$$

TFT와 무조건 D가 붙는 경우를 다시 보면 2회 게임부터는 어짜피 둘 다 0만 얻으므로 δ가 아무 영향을 끼치지 않습니다. 이것들을 종합하여 보수행렬로 씁니다.

$$\begin{array}{c|c|c} \hline & TFT & all D \\ \hline TFT & \frac{b-c}{1-\delta},\ \frac{b-c}{1-\delta} & -c,\ b \\ all D & b,\ -c & 0,\ 0 \\ \hline \end{array}$$

여기서 δ > c/b이면 둘 다 TFT를 택하는 경우와 둘 다 무조건 D를 택하는 경우가 모두 균형이 됩니다. 반대로 δ가 c/b보다 작으면 죄수의 딜레마가 됩니다. 즉 게임이 반복될 확률이 어느 정도 크면 TFT가 무조건 D에게 보복함으로써 TFT가 우세해지는 경우가 나타나고 이로 인해 무조건 D가 도태되어 협조 전략이 살아남을 수 있는 환경을 만들어줍니다.

혈연선택 가설과 반복-상호성 가설 모두 원래 죄수의 딜레마였던 상황에 새로운 요소를 도입하여 더이상 죄수의 딜레마가 아니게 함으로써 협조 전략이 살아남을 수 있다는 것을 보여줍니다. 또한 혈연선택의 경우 '협조'는 더이상 이타적 행위가 아닙니다. 그 행위로 인한 비용이 발생하지 않았기 때문입니다. 반복-상호성의 경우에도 둘 다 TFT를 선택하는 유인이 더 높은 보수라는 면에서 TFT를 선택한 경기자들도 이해타산의 동기에 의해 움직인다고 할 수 있습니다. TFT가 무조건 D를 응징하는 건 '정의'를 위해서가 아니라 '더 높은 보수'를 주기 때문이라는 거죠(즉 경제적 인간).

이제 여기서 가지를 치면, 배반에 대해 보복함으로써 얻는 이득이 보복을 한 사람에게(도) 돌아가는 경우와 그렇지 않은 경우를 나눕니다. 전자의 경우 '이기적 보복', 후자는 '이타적 보복'이라 할 수 있습니다. 보복이라는 행위(또는 전략)를 선택함으로써 더 높은 보수를 얻었다면 그 행위는 이기적인 동기에 의한 것이라고 해석하자는 겁니다. 문제는 '이타적 보복'을 어떻게 이해할지 입니다. 그래서 이득을 극대화하려는 보수대응적 인간(반복-상호성 가설의 행위자)과 상대방의 행동에 대해 반응하는, 예를 들어 상대방이 규범을 따르면 보상하고 규범을 어기면 보복하는, 행위대응적 인간(상호적 인간)을 구분합니다.

상호적 인간에 대한 여러 가설/이론(유유상종, 집단선택 등)은 "이타적으로 보이는 것에 그치지 않는 진정한 이타적 행위"(306쪽)가 어떻게 유지되거나 진화했는지에 초점을 둔다고 합니다. 그런데 유유상종이나 집단선택이 '진정한 이타적 행위'를 설명하는 것인지 의문이 듭니다. 일단 이후의 논의들은 "더 높은 보수를 받는 사람의 전략을 더 낮은 보수를 받는 사람들이 전수받는다"는 진화 메커니즘에 바탕을 둡니다. 그런데 바로 이런 진화 메커니즘은 결국 '더 높은 보수'를 지향하지 않으면 작동할 수 없습니다. 반복-상호성 가설에서 명시적이었던 '이해타산'의 요소가 유유상종, 집단선택 가설에서는 진화 메커니즘으로 (암시적으로) 바뀌었을 뿐 본질은 달라지지 않은 것으로 보입니다.

제가 책의 맥락을 오해했을 가능성이 있으므로, 몇 가지 단서를 제시하고 넘어가겠습니다. 163쪽에는 "이제부터 우리가 살펴볼 이야기에서는 게임은 반복되지 않는다고 가정할 것이다. 게임이 일회적임에도 불구하고, 협조적 전략이 혹은 상호적 인간형이 어떻게 진화과정에서 살아남을 수 있었을까?"로 이 장의 내용이 끝납니다. 바로 다음 쪽부터 유유상종 가설에 대한 이야기가 시작됩니다. 유유상종 가설의 메커니즘에 대한 설명이 있는 175쪽에는 "이타적인 사람이 얻게 되는 평균보수가 이기적인 사람의 평균보수보다 크다면 사회에 이타적인 사람들이 늘어날 것이라고 예상할 수 있다."라는 문장이 있습니다. 그리고 이 조건으로부터 "유유상종의 확률이 1/2을 넘어서면, 이타적 전략이 사회에 퍼져나갈 수 있다."고 합니다. (1/2라는 숫자는 여기서 크게 중요하지 않습니다.)

마지막으로 살펴볼 내용은 맺음말에 나옵니다. 이타적 행위로 인한 심리적 만족감이 물질적 이득을 통한 만족감과 함께 행동에 영향을 미친다고 합니다. 이런 접근은 위의 제 질문과 무관하게 논의될 수 있는 것 같습니다. 여튼 만족감 U를 물질에 의한 만족감 M과 타인의 행복으로부터 얻는 만족감 V에 어떤 수 a를 곱해 나타냅니다.

$$U=M+aV$$

a가 0보다 크면 타인의 행복에 만족하는 사람일테고, a가 0보다 작으면 타인의 불행에 만족하는 사람이겠죠. a가 0이면 타인의 행복은 전혀 상관하지 않는 사람일 겁니다. 이 a를 어떻게 규명하고 이해할 거냐가 앞으로 더 탐구되어야 할 주제라고 합니다. 우선 M으로 환원되지 않는 aV의 존재를 확인한 후, a가 0이 아닌 이유와 그것의 진화적 기원을 밝히고, 개인 사이의 상호작용, 문화/제도/역사적 요인들이 a에 어떻게 영향을 미치는지를 규명할 필요가 있다고 합니다.

머리 속이 정리되지 않아 중구난방이네요. 냐옹.