제목은 쓰다보니 좀 딱딱해졌네요. 바라바시의 2005년 네이처 논문에 대한 아마랄 그룹의 반론에 대해서는 "교신 활동의 두꺼운 꼬리를 연달은 푸아송 과정으로 설명하기"라는 글에서 소개했습니다. 이에 대한 바라바시 그룹의 반론과 인간행동에 관한 보편성 분류 논의를 간단히 정리해보겠습니다. 참고한 논문은 다음과 같습니다.

[1] A.-L. Barabasi, K.-I. Goh, A. Vazquez, Reply to Comment on "The origin of bursts and heavy tails in human dynamics," arXiv:physics/0511186 (2005)
[2] A. Vazquez, J.G. Oliveira, Z. Dezso, K.-I. Goh, I. Kondor, A.-L. Barabasi, Modeling bursts and heavy tails in human dynamics, Phys. Rev. E 73, 036127 (2006)

여기서도 [1]은 정식 출판되지 않은 것 같고요, 대신 [2]에 [1]의 내용이 대부분 반영되어 있는 것으로 보입니다. [1]의 제목에 붙은 각주를 보면, 아마랄 그룹의 코멘트가 <네이처>에 제출되었으나 심사위원들의 결정에 의해 거절당해서 아카이브(arxiv.org)에만 올렸답니다. 그래서 그 코멘트에 대한 대답(reply)도 아카이브에 올린다고 써 있네요.

여튼 이슈별로 볼까요.

1) 사건 사이 시간(interevent time) τ가 5초보다 작은 건 물리적으로 힘들다는 아마랄 그룹의 주장에 대해, 한번에 같은 내용의 메일을 여러명에게 보내면 서버가 조금씩 나누어서 순차적으로 보내기 때문이라고 합니다. 이후 아마랄 그룹의 논문에도 똑같은 얘기가 나오죠. 그런데 바라바시 그룹은 작은 τ가 아니라 큰 τ에 의한 두꺼운 꼬리의 원인을 밝히고자 한 것이므로 작은 τ는 별로 중요하지 않다는 입장입니다.

2) τ의 분포나 기다림 시간(waiting time) τw의 분포나 지수가 -1인 거듭제곱 분포보다는 로그정규분포에 더 잘 맞는다는 아마랄 그룹의 주장에 대해, 바라바시 그룹은 어짜피 어느 쪽이 진짜인지 가려내기는 힘들다고 합니다. 로그정규분포의 꼬리만 보면 지수가 -1인 거듭제곱 꼴이기 때문이죠. 이걸 믿을만하게 가려낼 수 있을만큼 데이터가 엄청나게 많으면 모르겠지만, 지금은 그런 상황이 아니며, 더 중요한 건 그냥 현상을 '기술'하는데 그치지 않고 거기에 내재된 '원인'을 밝혀내야 한다는 것입니다. 이미 지적했듯이 아마랄 그룹의 로그정규분포라는 주장이나 푸아송 과정의 중첩으로 두꺼운 꼬리가 설명된다는 주장은 이런 요구를 만족시키지 못하고 있습니다.

3) 바라바시의 우선권 기다림모형(priority queuing model; PQM)에 대한 비판에 대해서 바라바시 그룹은 나름 일리 있는 반론을 펼칩니다. 우선 τw는 한 이메일 사용자가 다른 사용자로부터 받은 이메일에 답메일을 할 때까지 걸리는 시간입니다. 물론 내용을 전혀 모르므로 그게 '답장'인지 아니면 아예 새로운 내용의 이메일인지 모릅니다. 그보다 더 중요한 문제점은 사용자들이 이메일을 받자마자 열어보지 않는다는 거죠. 이메일이 사용자의 메일함에 "도착"하고나서 한참 후에야 컴퓨터를 켜서 확인하고 곧바로 답메일을 보내는 경우, 실제 기다림 시간은 매우 짧다고 봐아겠죠. 그래서 위에서 정의한 τw를 그대로 쓰면 안되고, 대신 사용자가 '실제로' 메일함의 이메일을 확인한 때부터 답메일을 보낼 때까지의 시간으로 정의합니다. 여기서도 '실제로' 언제 메일함을 확인했는지는 모르므로 한 이메일이 도착한 이후 처음으로 다른 사람에게 메일을 보내는 순간에 메일함을 확인했다고 가정합니다.

괜히 말이 길어졌네요. 이렇게 τw를 다시 정의한 후 그 분포를 보면 매우 작은 τw에서 피크가 있는 것이 보입니다. 대부분의 이메일은 확인되자마자 바로 처리된다는 얘기입니다. 또한 나머지 이메일들은 처리되는데 오랜 시간(두꺼운 꼬리)이 걸립니다. 그리고 PQM은 이런 특성을 모두 잘 보여주고 있다고 하네요. 하지만 여전히 PQM은 이메일 입장에서 기다림 시간에 관한 모형이지 사용자의 행동패턴에 관한 실시간 모형은 아니죠. 매 시간 하나씩 이메일이 처리되므로 사용자 입장에서는 τ=0에서의 피크밖에 없습니다.

마지막으로 τw의 분포로부터 τ의 분포를 이끌어내는 논의가 나옵니다. A가 B에게 메일을 보내고 B가 답장하고 다시 A가 답장하는 상황을 보면요, A의 사건 사이 시간은 B가 A의 메일을 받고 반응할 때까지 걸린 B의 기다림 시간과 A가 다시 두번째 메일을 보낼 때까지의 A의 기다림 시간의 합입니다. 두 기다림 시간이 모두 똑같은 거듭제곱 분포를 갖는다면 두 기다림 시간의 합인 사건 사이 시간 역시 같은 모양의 거듭제곱 분포가 될 것이다.라는 논의를 통해 τ의 분포와 τw의 분포가 모두 지수가 -1인 거듭제곱 분포임을 관찰한 결과를 뒷받침합니다.

4) 아마랄 그룹의 비판과 별개로 바라바시 그룹이 새롭게 제시하는 결과는, 이메일 서신의 경우 지수가 -1인 거듭제곱 분포인데, 아인슈타인 등의 편지 서신의 경우 지수가 -3/2인 거듭제곱 분포로 보이더라... 이러한 차이는 PQM에서 작업목록의 길이가 고정된 경우(-1)와 그렇지 않은 경우(-3/2)의 차이로 이해할 수 있다고 합니다. 편지의 경우 책상에 얼마든지 쌓아둘 수 있고 또 그걸 언제든지 볼 수 있어서 작업목록의 길이가 제한 없이 변한다고 하며, 이메일의 경우 처리하지 않고 지워버린다거나 아예 잊어버리는 경우도 있는데 이건 작업목록이 제한되어 있고 그걸 벗어나는 작업은 목록에 들어오지도 못하는 상황으로 이해할 수 있다...는 식의 논리입니다.

사실 약간 말장난 같기도 해요. 작업목록의 길이의 변화/불변은 실증적으로 파악하기에도 쉽지는 않아보여서 그런 가설을 세울 수밖에 없다는 것도 인정합니다.

머리 속에서 정리가 잘 안되니 간단명료하게 쓰지 못하고 주절댔습니다. 여튼 논문 [2]에서는 앞으로 해야할 일들을 여러 가지 제시하고 있는데, 이 분야의 발전 방향을 제시하는 것으로도 보여서 할 일이 없으신 분들은 한 번 읽어보시기 바랍니다.