브라질, 이탈리아 등 여러 나라의 선거결과 득표율의 분포로 로그정규분포가 많이 관찰된다. 왜 그럴까? 그 이전에, 세계의 많은 현상들이 정규분포를 따른다는 사실부터 생각해보자. 중심극한정리는 편차가 유한하고 서로 독립적인 확률변수들의 합의 확률분포는 변수의 개수가 많을수록 정규분포로 수렴한다고 말한다. (한 문장으로 쓰니 깔끔해서 좋은데 잘 모르는 사람들에게는 난해할 듯;;;)

중심극한정리(central limit theorem)를 말로 풀어보자. 전체를 이루는 부분들은 저마다 제각각의 확률분포를 갖는 확률변수로 기술된다고 하자. 또한 각 부분들은 서로 무관하며(독립적이며) 각 부분의 확률분포의 편차는 유한하다고 하자. (유한하기만 하면 된다. 확률분포가 똑같을 필요도 없고, 편차가 모두 똑같을 필요도 없다.) 즉 각 부분은 지나치게 이상한 행동을 보이지 않는다는 말이다. 이런 성질을 갖는 부분들의 '합'으로 전체를 이해해보자. 그러면 부분들을 자세히 몰라도 전체를 기술하는 확률변수의 확률분포는 정규분포가 된다는 말이다.

정규분포를 P(s)라고 하면, 여기서 s = ln x 로 치환하면 로그정규분포가 얻어진다. 수식을 쓰지 않을 수 없는 상황이 되었다;;;

정규분포: P(s) ~ exp(- s^2 / σ^2)
로그정규분포: P(x) ~ 1/x exp(- (ln x)^2 / σ^2)

일단 평균은 0으로 놓았다. 로그정규분포의 경우 편차(σ)가 매우 커지면 지수함수 부분은 1에 가까운 값이 되어 P(x) ~ 1/x 가 확연히 드러난다. 즉 두꺼운 꼬리(fat-tail)를 갖는 모양의 분포가 된다. 그래서 편차가 큰 경우 1/x는 매우 자연스러운 현상이다. 명심할 것은, 로그정규분포 역시 각 부분들 사이의 독립성을 전제로 한다는 것이다.

즉 통계물리에서 중요하게 다루어지는 거듭제곱 꼴(power-law)과는 그 기본 전제부터 완전히 다르다. 통계물리의 거듭제곱 꼴은 부분들 사이의 상호작용에 의해 나타나는 현상이기 때문이다. 그런데 통계물리학을 하는 사람들도 이걸 거듭제곱 꼴(power-law)이라 부르며 신기한 것처럼 취급하거나 그런 분위기에 편승해왔다.

이 얘기를 완결하려면 몇 가지 이야기가 더 필요하다. 우선 정규분포가 보편적으로 나타나듯이 로그정규분포도 보편적으로 나타나리라고 예상할 수 있다. 정규분포는 부분들의 '합'으로 전체를 보려는 것이었다면, 로그정규분포는 부분들의 '곱'으로 전체를 보려고 한다는 면에서 차이가 있을 뿐이다. s = Σ s_i 에서 s = ln x, s_i = ln x_i 로 바꿔주면, x = Π x_i 가 된다. 즉 전체는 부분의 곱이다. 이를테면 주식의 수익률을 계산할 때 한 달 전체의 수익률은 매일의 수익률의 곱으로 얻어진다.

선거의 득표율의 분포가 로그정규분포라는 사실은 그래서 무엇을 뜻하는가? 나도 모른다;;; '선거'라는 전체를 어떻게 부분으로 쪼개어 이해할 것인지 생각해보자. 행위자 단위로 쪼개는 경우 우리는 '전체는 부분의 합'이라고 해야 하지만 이러면 로그정규분포를 이해할 수 없다. 그래서 앞의 수익률 계산처럼 날마다 변하는 여론의 흐름이라든가 지지율의 변화들의 '곱'으로 최종 선거결과를 이해하면 더 좋겠다고 얘기할 수 있겠다.

끝.