앞글들[1,2]에서 거듭제곱 분포는 어떤 정보(이득)를 이용하는데 드는 비용을 최소화함으로써 얻어집니다. 그런데 왜 하필 거듭제곱 분포인가에 대해 좀더 생각해보겠습니다. 

평균정보량을 H, 평균비용을 C라고 할 때 C/H를 어떤 p에 대해 최소화하는 식은 C/H를 p로 미분한 게 0이면 됩니다. 일단 상수는 다 묶어서 c로 처리하면 아래와 같습니다.
dC/dp = c dH/dp
즉 비용의 증가분이 이득(여기선 정보량)의 증가분과 같아지는 지점이 되지요. 

다음으로 C와 H 모두 로그함수로 씌어진다는 게 중요합니다. 정보량의 경우 덧셈이 가능하도록 하기 위해 로그가 필요하고 비용의 경우 앞글에서 썼듯이 비용은 글자수에 비례하고 글자수가 적을수록 많이 쓰인다는 전제에 의해 로그가 도입됩니다. 둘 다 로그라서 결국 거듭제곱 꼴이 결과로 나옵니다. 즉 log j = c log p이므로, p = j^{1/c}가 됩니다.

왜 둘 다 로그가 필요한지 자세히 봅시다. 정보량의 경우, 섀넌 엔트로피를 썼는데 이게 볼츠만이 정의했던 열역학의 엔트로피와 밀접하게 연관되어 있습니다. 열역학 엔트로피는 시스템 크기에 비례하는 양입니다. 시스템 크기가 두 배가 되면 다른 모든 조건이 같을 때 엔트로피도 두 배가 됩니다. 즉 작은 시스템이 모인 큰 시스템의 엔트로피는 작은 시스템의 엔트로피들의 합입니다. 큰 시스템이 어떤 상태에 있을 확률(또는 경우의 수)은 작은 시스템이 어떤 상태에 있을 확률들(경우의 수들)의 곱인데, 여기 로그를 취해 엔트로피로 정의하면 엔트로피끼리는 덧셈이 됩니다. 

애초에 불확실성이나 정보량이 덧셈가능성을 가질 이유는 없는 것 같은데, 열역학 엔트로피의 덧셈가능성을 섀넌 엔트로피가 물려받지 않았나...라고 쓰는 순간, 섀넌이 자신의 엔트로피를 제시하면서 열역학 엔트로피를 몰랐다는 사실이 떠올랐습니다. ('엔트로피'라는 이름은 폰노이만이 제안했다고 합니다.) 결론적으로 제 추측은 무시하셔도 좋습니다.;;; 어떻든간에, 정보량/불확실성이 덧셈가능할 이유가 원래는 없는 것 같습니다.

비용의 경우, 앞글에서 상세히 썼지요. 여기서도 로그는 주어진 글자수(즉 비용)로 가능한 낱말의 개수(경우의 수)가 몇개인지 세다보니 나왔습니다. "순위 ~ (알파벳 개수)^글자수"으로부터 "글자수 ~ log 순위"가 나왔죠. 다시 정리하면 "log 순위 ~ 글자수 ~ (한계)비용 ~ (한계)정보량 ~ log 빈도(또는 확률)"이어서 결국 확률과 순위의 거듭제곱 관계가 나옵니다. 비례상수를 다 빼버렸지만 중간에 음의 부호가 들어갑니다.

비용이든 정보량이든 둘 다 확률이나 경우의 수처럼 '곱'의 성질을 갖던 양을 '합'의 성질로 바꾸는 과정에서 로그가 나타났는데, 뭔가 미묘하게 달라서 뻔한 얘기로 끝나지 않고 '거듭제곱 관계'라는 재미있는 결론으로 끝나네요. 천천히 더 생각해봐야 할 듯.