어제 바라바시의 2005년 네이처 논문을 소개했고, 또한 이에 대한 아마랄 그룹의 코멘트도 잠깐 얘기했습니다. 오늘은 아마랄 그룹에서 낸 논문들을 더 살펴봤습니다. 어제 말한 코멘트까지 포함한 목록입니다:
[1] D.B. Stouffer, R.D. Malmgren, L.A.N. Amaral, Comment on The origin of bursts and heavy tails in human dynamics, arXiv:physics/0510216v1 (2005)
[2] D.B. Stouffer, R.D. Malmgren, L.A.N. Amaral, Log-normal statistics in e-mail communication patterns, arXiv:physics/0605027v1 (2006)
[3] R.D. Malmgren, D.B. Stouffer, A.E. Motter, L.A.N. Amaral, A Poissonian explanation for heavy tails in e-mail communication, PNAS 105, 18153 (2008)
[4] R.D. Malmgren, D.B. Stouffer, A.S.L.O. Campanharo, L.A.N. Amaral, On Universality in Human Correspondence Activity, Science 325, 1696 (2009)
[2]는 [1]을 확장해서 쓴 것이라고 합니다. 그리고 논문 [1]과 [2]가 정식으로 출판되었나 찾아봤는데 모르겠습니다. 논문 [3]이 자신들의 논문 [2]를 아카이브에 올린 것 그대로 인용하는 것으로 봐서 따로 출판되지 않은 듯 합니다. 그리고 [1]과 [2]에서 주장하는 바가 [3]과 [4]에 반영되어 있습니다.
우선 [2]부터 봅시다. 이들은 바라바시의 네이처 논문의 데이터 분석과 바라바시가 제안한 '우선권 기다림모형(priority queuing model; PQM)'을 조목조목 비판합니다. 바라바시의 결과를 보면 이메일 사용자가 이메일을 하나 보낸 후 다음에 보낼 때까지 걸리는 시간(τ)의 분포를 보는데 τ가 5초보다 작은 '비물리적인' 경우가 전체 데이터의 9%를 차지한다고 합니다. 실제로 한 번에 여러명에게 같은 내용의 메일을 보낼 때 받는 사람이 많을 경우 프로그램이 자동적으로 이를 여러 번으로 쪼개어 보내기도 한다네요. 그리고 이때 5초보다 작은 τ가 나타날 수 있습니다. 그래서 [2]의 글쓴이들은 이런 경우를 '인간 행동'에 관한 적절한 예가 아니라고 판단하여 여러 번 쪼갠 것을 다시 합쳐서 한 번에 보내는 것처럼 처리했다고 합니다. 또한 이메일을 받기만 하고 거의 보내지 않는 사용자나 그 반대의 사용자는 예욋값으로 취급하여 제외했다고 합니다. 그래서 바라바시가 이용한 3188개의 사용자 자료 중 이러저러하게 제외하고 남은 1152개만 이용해서 분석합니다.
이들의 주장은 τ의 분포가 지수가 -1인 거듭제곱 꼴이 아니라 로그정규분포라는 것입니다. 즉 ln τ를 u라는 변수로 바꾸면 u에 관한 정규분포가 나오겠죠. 만일 바라바시의 주장대로라면 u는 균일 분포가 나올 거고요. 거듭제곱이냐 정규분포냐?! 를 판단하기 위해 베이지안 모형선택 분석 방법을 이용하여, 여러명의 데이터를 하나씩 관찰값으로 넣어주면서 반복하다보면 거듭제곱일 확률이 0으로 수렴한다고 합니다.
다음으로 A가 B에게 이메일을 받고 B가 A에게 답장을 보낼 때까지 걸리는 시간을 재서 이 값의 분포를 봅니다. 그런데 사실 B가 A에게 이메일을 보낼 때 그게 A가 이전에 B에게 보낸 이메일에 대한 답장인지 아니면 전혀 무관한 것인지 판단할 방법은 없습니다. 바라바시는 여기서도 지수가 -1인 거듭제곱 분포라고 주장했는데, 아마랄 그룹의 결과는 로그정규분포 두 개가 중첩된 것이 가장 잘 맞는다고 합니다. 왜 두 개냐면, 사람들이 이메일을 받고 답장을 쓰는데 한두시간 안에 바로 쓸 수도 있고, 그게 아니면 다음 날로 미뤄버릴 수 있기 때문이죠. 그래도 두 로그정규분포의 두 최대값이 각각 1시간과 2일 정도에 해당하는 결과를 얻었답니다.
마지막으로 PQM(논문에서는 이런 약자를 쓰지 않는데, 전 귀찮아서;;;)에 대한 비판입니다. PQM은 어떤 사용자가 L개의 작업 목록을 갖고 있고, 그중 우선권이 가장 높은 작업부터 처리한다는 모형입니다. 그런데 각 시간단위마다 하나의 작업이 처리되는데, 그러면 결국 τ의 분포는 델타함수가 나올 수밖에 없다고 합니다. 작업의 입장에서는 기다리는 시간이 거듭제곱 꼴이지만 사용자의 입장에서는 델타함수인 게 맞죠. 이외에도 치명적으로 보이는 몇가지 문제점들이 더 있습니다.
[3]으로 넘어갑시다. 그래서 아마랄 그룹은 '임계 모형'인 거듭제곱분포가 아닌 '비임계 모형'인 푸아송 과정을 이용해 두꺼운 꼬리를 설명하려고 합니다. [2]에서 지적한대로 인간의 행동은 일간패턴(daily pattern)과 주간패턴(weekly pattern)의 영향을 받습니다. 낮에 일하고 밤엔 자고, 주중엔 일하고 주말에 쉬죠. 바로 이게 두꺼운 꼬리(즉 큰 τ값)에 영향을 준다고 합니다. 균일 푸아송 과정은 단위 시간 동안 어떤 사건이 일어날 비율만으로 정의됩니다. 그 비율이 시간에 따라 요일에 따라 달라지므로 "시간대/요일에 따라 변하는 비율"로 정의된 비균일 푸아송 과정을 도입합니다. 또 다른 요소로는 '연달은(cascading)' 패턴입니다. 한 번 작업을 처리하면 앉은김에 다른 작업도 처리할 가능성이 높아진다고 가정(과연;;;)하는데, 이 부분은 다시 균일 푸아송 과정으로 하되, 그렇게 연달아 처리하는 일의 개수도 어떤 확률분포를 따른다고 합니다.
그래서 이들의 모형은 "일간/주간 패턴을 반영한 비균일 푸아송 과정 + 일단 일을 시작하면 균일 푸아송 과정으로 연달아 하기"로 정리됩니다. 그래서 이게 실제 데이터를 잘 재현해내더라...입니다. 끝. 그런데 일간/주간 패턴과 '연달아 하는 일의 개수의 분포'는 실제 데이터로부터 맺음변수를 뽑아냅니다. 그럴수밖에 없지만, 또 그렇기 때문에 잘 맞을 수밖에 없다는 생각이 듭니다. 그래서 여전히 '기술(description)'의 수준을 벗어나지 못하는 것으로 보입니다. 게다가 이전 논문([2])에서 주장한 로그정규분포와 맞는지 어떤지 얘기도 하지 않습니다. 보충자료(supplement)는 안봐서 모르겠네요.
마지막으로 [4]입니다. 이번에는 이메일보다 실제 주고받은 편지를 대상으로 분석합니다. 프란시스 베이컨부터 다윈, 엥겔스, 맑스, 프로이드, 아인슈타인, 헤밍웨이 등 16명의 위인(!)들의 서신이 연구대상이 됩니다. 바라바시의 PQM이 정상상태임을 가정하고 있다면, 실제로는 주변 환경의 변화에 의한 비정상(nonstationary) 효과가 중요해진다는 걸 강조하고 있습니다. 아인슈타인을 예로 들면 유명해지기 전과 후로 나누어 볼 때 유명해지기 전에는 τ 분포에 두꺼운 꼬리가 있는데, 유명해진 후에는 편지를 많이 주고받다보니 τ 분포의 꼬리가 작아지더라... 그리고 두 시기를 모두 합치면 두꺼운 꼬리가 나오더라. 즉 서로 다른 시간 규모의 푸아송 분포가 중첩되어 두꺼운 꼬리가 나타난다는 주장입니다. 네 충분히 있을 수 있는 일이죠. 여전히 모형의 변수를 데이터로부터 직접 끌어내는데, 그게 사실상 바로 현상이기 때문에 저에겐 만족스럽지 못하지만 말입니다.
덧붙여 논문 제목과 연관되어 중요한 점은, 이메일 자료와 편지 자료가 서로 같은 보편군(universality class)이냐 아니냐와 같은 보편성에 관한 논의입니다. 아마랄 그룹은 두 자료들이 모두 연달은 푸아송 과정으로 이해되므로 굳이 말하자면 같은 보편군이라고 주장합니다. 바라바시 쪽 주장은 어땠죠? 아마 지수가 1인 경우와 3/2인 경우가 나뉜다고 한 것 같은데, 확인해봐야겠습니다. 정말 끝.