이 글의 제목은 바라바시가 2005년 <네이처>에 낸 논문의 제목을 한국어로 옮긴 것입니다. 원래 제목은 "The origin of bursts and heavy tails in human dynamics"입니다. 글쓴이는 한 이메일 사용자가 세 달 동안 이메일을 주고받은 데이터로부터 보편적인 현상을 발견해냅니다. 한 사용자가 이메일을 보내고 그 다음에 보낼 때까지 걸리는 시간을 τ라고 하면 이 τ의 분포가 지수가 -1인 거듭제곱 분포를 따른다고 합니다.

$$P(\tau)\sim\tau^{-1}$$

또한 누군가로부터 이메일을 받고 거기에 답장을 할 때까지 걸리는 시간(τw라고 합시다)의 분포도 역시 같은 거듭제곱 분포를 따른다고 합니다. 이를 설명하기 위해 글쓴이는 행위자가 처리해야 하는 작업에 우선권(priority)을 주고 가장 우선권이 높은 일을 선택하여 처리할 확률을 p, 우선권에 상관없이 랜덤하게 작업을 골라서 처리할 확률을 1-p로 놓습니다. 우선권이 x인 작업이 선택될 확률을 Π(x)라고 하면, 그 작업이 진입한 후 시간 t가 지나서 처리될 확률은 다음과 같습니다.

$$f(x,t)=(1-\Pi(x))^{t-1}\Pi(x)$$

그럼 어떤 작업이 처리될 때까지 평균적으로 기다려야 하는 시간은 다음과 같죠.

$$\tau(x)=\sum_{t=1}^\infty tf(x,t)=\frac{1}{\Pi(x)}$$

이제 Π(x)가 xγ라고 가정합니다. γ가 0이면 x에 상관없이 모든 작업이 랜덤하게 선택되므로 p=0에 해당합니다. γ가 무한대면 x가 가장 높은 작업만 선택되므로 p=1에 해당합니다. 작업이 처리되고 그 자리에 새로운 작업이 들어오는데 이때 그 작업의 우선권, 즉 x값은 0과 1 사이의 어떤 분포 ρ(x)로 주어진다고 합시다. 그러면 이제 P(τ)를 구하면 됩니다.

$$P(\tau)d\tau=\rho(x)dx\ \to \ P(\tau)\approx \frac{\rho(\tau^{-1/\gamma})}{\tau^{1+1/\gamma}}$$

우선권이 가장 높은 일부터 처리하는 경우는 p=1일 때, 즉 γ가 무한대일 때이고, 이때 τ의 분포는 실제 이메일 데이터에서 얻은 것과 같이 지수가 -1인 거듭제곱 분포가 됩니다. 너무 단순해서 뭔가 뻔한 결과인 것 같은 느낌이 드는데 그게 뭔지 잘 모르겠네요.

일단 이 논문을 비판하는 코멘트(arXiv:physics/0510216)가 아마랄 그룹에서 바로 나왔는데요, 출판이 되었는지 모르겠습니다. 주요 비판 내용은 거듭제곱 분포보다 로그정규분포가 더 잘 맞고 그게 실제 인간의 행동을 더 잘 설명한다는 것입니다. 제가 '뻔한 결과'라고 한 건 모형에 대한 느낌이었지만, 두꺼운 꼬리의 거듭제곱 지수가 -1이라면 로그정규분포일 가능성도 배제하기 힘들다는 느낌이었습니다. 그걸 아마랄 그룹의 논문이 명확하게 지적하고 있습니다.

아마랄 등의 코멘트를 다시 보면요, 바라바시가 제시한 그래프에서는 1초보다 작은  τ도 있고 또한 5초 이내에 다시 이메일을 보내는 경우가 가장 많다고 해석할 수 있습니다. 하지만 우리가 이메일을 보내고나서 5초 후에 바로 또 이메일을 작성해서 보낸다는 건 이상하다고 아마랄 등이 주장합니다. 그런데 생각해보면 같은 내용의 메일을 여러명에게 보낼 경우, 물론 한번에 다 보낼 수도 있지만, 두세번에 걸쳐서 보낼 수도 있고... 다양한 '이상한' 상황이 일어날 수 있지 않을까 합니다. 문제는 그런 '이상한' 상황이 데이터에 따르면 '너무나도 자주' 일어난다는 게 문제이기는 하죠. 여튼 아마랄의 논문을 찾아보니 2008년에 PNAS에 "A Poissonian explanation for heavy tails in e-mail communication"이라는 제목의 논문을 냈더군요. 바라바시의 모형이 아닌, 푸아송 분포에 기반하여 이메일 통신에서 나타나는 두꺼운 꼬리를 설명해보겠다는 논문입니다. 읽어봐야 할 것 같습니다.