마이클 미첸마허 교수의 2004년 논문을 읽었습니다. <인터넷 수학>이라는 저널에 실린 이 논문의 제목을 한국어로 옮기면 "거듭제곱 분포와 로그정규분포를 만드는 모형에 관한 간단한 역사"입니다. (pdf 내려받기) 제 블로그에서도 종종 얘기했듯이 거듭제곱 분포를 만들어내는 다양한 모형, 즉 다양한 메커니즘이 있지요. 뉴만의 논문에서 본 율 과정(Yule process)이 대표적인데 두 마디로 '빈익빈 부익부'라고 할 수 있습니다.

오늘 이 글에서는 최적화의 결과로서 얻어진 거듭제곱 분포를 소개합니다. 원래 만델브로트가 제시한 거라고 하네요. n개의 낱말로 이루어진 언어를 생각합시다. j번째로 자주 쓰이는 낱말을 이용하는데 드는 비용을 Cj라고 합시다. 어떤 낱말을 한 번 이용할 때마다 전달되는 정보량을 최대화한다고 해봅시다. 여기서 정보량은 엔트로피로 정의됩니다. j번째 낱말이 쓰일 확률을 pj라고 하면, 낱말 당 평균 정보량과 비용은 다음처럼 주어집니다.

$$H=-\sum p_j \log p_j,\ C=\sum p_jC_j$$

H/C를 최대화하는 건 C/H를 최소화하는 것과 같습니다.

$$\frac{d(C/H)}{dp_j}=\frac{C_jH+C\log(ep_j)}{H^2}=0$$

로부터,

$$p_j=e^{-HC_j/C-1}$$

여기서는 Cj를 log j에 비례하는 양으로 가정(?)하는데 왜 그런지 모르겠네요. 여튼 비례상수를 a라고 하고 이 가정을 위 결과에 집어넣으면,

$$p_j=e^{-Ha\log j/C-1}\propto j^{-aH/C}$$

처럼 pj가 j의 거듭제곱 꼴이 됩니다. 이건 순위(j)에 따른 확률인데, 이로부터 이 확률의 분포도 구할 수 있습니다. 자세한 건 "대한민국 100대 최고가 아파트의 거듭제곱 지수" 라는 글에 좀 성의 없게 달아놓은 주석을 참고하세요;;;

만델브로트의 이 논의는 53년에 나왔고, 55년에 사이먼(Herbert Simon)이 율 과정을 일반화한 연구를 발표하자 만델브로트가 사이먼 모형은 순환논리라고 주장했고 사이먼이 반론을 하는 등 열띤 논쟁이 오고갔나 봅니다.

뭐가 됐든, Cj가 j의 로그라는 가정이 이해되지 않으니 결론에 대해서도 감흥이 없습니다;;; 그래도 거듭제곱 분포에 대한 최적화 논의는 흥미로운 접근입니다. 거듭제곱 분포는 '우연히' 나타나지 않았으며 실은 시스템이 최적화를 추구하다보니 나타난 '필연적 결과'라고 주장할 수 있게 됩니다. 이 일반적인 논의를 부의 거듭제곱 분포에 순진하게 적용시켜보면, 부자가 더 부유해지고 가난한 자가 더 가난해지는 건 '최적화된 필연적 결과'라는 말로 탈바꿈할 수 있습니다. 무섭죠.

다른 한편으로, 바라바시처럼 거듭제곱 분포를 "커다란 사건은 반드시 일어난다"라고 해석하는 입장에 서봅시다. 사회의 변화크기의 분포가 거듭제곱 분포라면(그런가요?), 사회의 급격한 변화(혁명?)가 반드시 일어난다고 해석할 수도 있습니다. 그래서 급격한 변화 역시 '최적화된 필연적 결과'가 될 수 있는 것이죠. 물론 이것도 순진하게 적용한 결과입니다.

생각할 꺼리와 알아두면 좋은 내용이 많은 논문입니다. 강추.