오늘 저널클럽에서 발표한 논문을 소개한다. 쾰른대학교의 크루그 그룹에서 작년에 <저널 오브 스태티스티컬 피직스(JSP)>에 낸 논문[1]과 올해 <피지컬 리뷰 레터스(PRL)>에 낸 논문[2]이다. PRL 논문의 제목이 "Correlations of Record Events as a Test for Heavy-Tailed Distributions"이다.

어떤 관측량들로부터 그 현상을 기술하는 분포를 추측해내는 시도는 오래된 연구주제다. 이를테면 N개의 관측량이 있다고 하자. 이를 \(\{x_n\}_{n=1,\cdots,N}\)라고 하자. n번째 관측량이 그 이전, 즉 1,2,...,n-1번째 관측량들보다 모두 크다면 n번째 관측량을 '기록(record)'이라고 한다. n번째가 기록일 확률을 pn이라고 하고, n-1번째가 기록이고 n번째도 기록일 확률을 pn,n-1이라고 하자. 이로부터 '기록 상관(correlation of record events)'을 다음처럼 정의할 수 있다.

$$I_{n,n-1}=\frac{p_{n,n-1}}{p_n p_{n-1}}$$

관측량들이 서로 독립이고, 같은 분포에서 얻어진 경우(i.i.d.) 기록 상관의 값은 1이다.

이제 xn으로부터 다음처럼 yn을 정의한다.

$$y_n=x_n+cn$$

이를 선형추세모형(linear drift model; LDM)이라 부른다. 이 y들을 이용해 기록 상관을 다시 얻을 수 있다.

$$I_{n,n-1}(c)=\frac{p_{n,n-1}(c)}{p_n(c) p_{n-1}(c)}$$

c가 매우 큰 값이라면 x와 무관하게 n이 커질수록 기록이 될 가능성이 높아지므로 모든 p가 1에 가까워질 것이다. 즉 기록 상관도 1로 수렴할 것이라 예측할 수 있다. 그렇다면 c가 0도 무한대도 아닌 그 사이일 때는 어떤 일이 벌어질까?

이를 시험하기 위해 이미 잘 알려진 여러 분포함수로부터 x들을 뽑아서 기록 상관을 c의 함수로 계산한다. 대개 두꺼운 꼬리를 갖는 함수들은 기록 상관이 1보다 크지만, 얇은 꼬리를 갖는 함수들은 기록 상관이 1보다 작다. 즉 c의 함수인 기록 상관이 1보다 크냐 작으냐에 따라 꼬리의 성질을 파악할 수 있다. 다만 불분명한 부분은 지수함수분포의 경우 기록 상관이 1보다 크다는 것이다. 지수함수는 분명히 두꺼운 꼬리라 부를 수 없는데 1보다 큰 기록 상관이 나타난다. 다만 이 경우 기록 상관의 최대값은 1.1 근처로 두꺼운 꼬리로 잘 알려진 파레토분포의 최대값인 1.4~2보다는 작다.

x들이 f(x)라는 분포함수로부터 얻어진다고 가정하면 이로부터 기록 상관을 계산할 수 있고 선형추세모형의 기록 상관은 c가 매우 작은 범위에서만 정확한 해를 구할 수 있다.

여기까지가 JSP 논문의 내용이고, PRL 논문은 이런 원리를 이용해서 '두꺼운 꼬리 시험'을 제시한다. 두꺼운 꼬리 분포를 제대로 확정하려면 사실 꽤 많은 데이터가 필요하다. 하지만 현실은 그렇지 않은 경우도 많다. 즉 아주 적은 데이터로 두꺼운 꼬리인지 아닌지를 시험해보겠다는 것이다. N개의 관측량밖에 없는 경우, N개 중 n개를 무작위로 고른다. (이런 방법의 수는 NCn이다.) 이렇게 선택된 관측량에 선형추세를 더한 후 기록 상관을 c의 함수로 잰다. 그래서 기록 상관이 1보다 큰지 작은지를 봄으로써 관측량들이 두꺼운 꼬리 분포에서 얻어졌는지 아닌지를 판단할 수 있다. 저자들은 N=64인 경우에 n=16이면 이를 판단하는데 충분하다고 한다. 이 방법이 두꺼운 꼬리가 로그정규분포인지 거듭제곱 분포인지 레비분포인지 등을 알려주지는 않는다. 더구나 거듭제곱 지수를 구하는 것과는 더 먼 얘기다.

여튼 아직도 확실하게 이해하지 못한 지점이 있는데, 왜 두꺼운 꼬리일 때 0보다 큰 c에서 기록 상관이 1보다 커지는지 모르겠다. 1보다 큰 기록 상관은 한번 기록이라면 바로 다음번에 기록일 가능성이 높아진다는 것을 뜻한다. 물론 '바로 다음번' 분포함수는 '이전' 분포함수보다 c만큼 양의 x 방향으로 이동한 것이다. 매번 분포함수가 더 큰 x 방향으로 이동하므로 기록이 나올 확률(pn)도 커지는 건 당연하다. 문제는 pn,n-1이 커지는 속도다. 이게 더 빨리 커지면 기록 상관도 1보다 큰 값을 갖고, 느리게 커지면 기록 상관은 1보다 작은 값을 가질 것이다. 이 확률들이 꼬리가 두꺼울수록 c에 더 민감하게 반응하는 건 자연스럽지만 여전히 그래서 pn,n-1이 더 빨리 커지는 이유는 분명하지 않다.

 

[1] G. Wergen, J. Franke, and J. Krug, J. Stat. Phys. 144, 1206 (2011)

[2] J. Franke, G. Wergen, and J. Krug, Phys. Rev. Lett. 108, 064101 (2012)