중심극한정리(central limit theorem; CLT)는 잘 알려져 있고, '로그중심극한정리(logarithmic CLT; LCLT)'라고 제가 이름붙인 내용도 원래(위키피디아 CLT 항목 중) 잘 알려져 있습니다. 그런데 이걸 LCLT라고 부르는지는 모르겠습니다.

CLT는, 평균과 분산이 유한한 확률변수 N개의 합은 N이 커질수록 정규분포로 수렴한다는 정리입니다. 이에 대해서는 피타고라스님의 '드무아브르의 중심극한정리(i), (ii), (iii), (iv)' 시리즈에 상세한 설명이 나와 있습니다만 수식을 따라가기 힘든 분들에게는 무리일지도. (저도 일단 눈으로만 죽 훑었습니다.)

수학으로 CLT를 증명하는 건 알고 있지만, 그게 왜 그러한가에 대해 생각해본 적이 없더군요. 좀더 직관적인 설명을 해보려고 했는데 잘 안되어서 수학적인 스케치만 해보겠습니다. [참고: D. Sornette, Critical Phenomena in Natural Sciences (2003), 2.3절]


i는 1부터 N까지입니다. 확률변수 x_i의 확률분포는 P_i(x_i)로 나타내고, x_i들 N개의 합은 x입니다. 또한 각 x_i는 서로 독립입니다. 그러면 x의 확률분포 P(x)는 위 식의 오른쪽처럼 나타낼 수 있습니다. 저걸 k 공간으로 푸리에 변환해주면 아래처럼 됩니다.


x_i들의 확률분포가 모두 같다고 가정한 겁니다. 그리고 지수 위의 c_n은 확률분포 P_1의 n번째 누적률(cumulant)입니다. 그 값 자체가 얼마냐는 지금은 중요하지 않고요. 이제 여기서 또다른 중요하면서도 일반적인 결과를 이용하는데요, x의 표준편차는 N의 제곱근에 비례한다는 겁니다. k와 x는 역수 관계에 있으므로, 아래 왼쪽 식이 나옵니다.


그럼 위의 P(k)의 지수 안의 k의 n제곱 항들에 대해 위의 오른쪽 식처럼 쓸 수 있습니다. 우리는 N이 매우 클 때만 관심이 있는데, 이때 n이 2보다 크면 그 항은 사라져버립니다. 즉 n=1,2일 때만 중요하다는 건데, P(k)의 지수에 k와 k^2까지만 남고 나머지 항들은 없는거죠. 이걸 역푸리에 변환해주면 바로 가우시안 분포(정규분포)가 나옵니다.

결국 위에서 N을 무한대로 보냈을 때 살아남는 항의 차수가 얼마냐가 중요하다는 건데, 그 차수는 x의 표준편차가 N의 제곱근에 비례한다는 사실로부터 나옵니다. 또는 x^2이 N에 비례한다는 거죠. N은 마구잡이 걷기에서 움직인 시간에 해당하므로 x^2 ~ t로 해석해도 됩니다. 흠. 아직 생각이 부족하네요.

지금까지는 확률변수의 '합'에 관한 정리였다면, 확률변수의 '곱'에 관한 건 어떻게 이해할 수 있을까요.가 다음 내용입니다.


위의 왼쪽식에서 x는 x_i들의 곱입니다. 그런데 s라는 변수를 도입하면 x_i들의 곱은 s_i들의 합으로 다시 나타낼 수 있습니다. '합'에 대해서는 이미 CLT로 알려진 결과가 있으므로, s는 정규분포를 따릅니다. 그러면 아래 왼쪽의 항등식을 이용하여, x의 확률분포를 아래 오른쪽처럼 구할 수 있습니다.


그리고 이걸 로그정규분포(lognormal distribution)라고 하죠. 정리하면, 확률변수들의 '합'은 정규분포를, 확률변수들의 '곱'은 로그정규분포를 따릅니다. 전자는 CLT라는 이름으로 잘 알려져 있고, 후자는 제가 여기저기 찾아봤지만 마땅한 이름이 없어서 제맘대로 LCLT(로그중심극한정리)로 일단 부르겠습니다.

마지막으로, 왜 CLT에 CLT라는 이름이 붙었는지 모르겠네요. 오래전에 확률 및 통계 수업 시간에 배웠을지는 모르겠으나 지금은 모르겠네요. '극한'은 N을 무한대로 보내는 극한인 것인지, '중심'은 왜 들어가는지... 아시는 분들은 알려주세요.