작년 가을에 비엔나 학회에 가서 친구들하고 얘기했던 거긴 한데, 문득 떠올라서 생각을 덧붙여 정리해보겠다. 어떤 데이터로부터 분포를 쟀더니 두꺼운 꼬리가 나왔다고 하자.

1. 꼬리뿐 아니라 몸통까지 데이터를 잘 맞추는(기술하는) 함수형태를 찾는 것은 중요하며, 이로부터 데이터를 이해하려고 해야 한다.

2. 일반적으로 함수를 복잡하게 할수록 데이터를 더 잘 맞출 것이다. 하지만 그게 데이터에 대한 더 깊이 있는 이해를 보장해주지는 않는다.

3. 위 2번이 성공적이지 못할 경우에는, 분포 전체보다는 꼬리에 대해서만이라도 직관적이고 비교적 간단한 설명을 찾는 것에서 시작할 수 있다. 이것도 쉬운 일은 아니다.

나를 비롯한 우리 분야의 몇몇 물리학자들은 1번에 소홀하며 2번은 시도도 하지 않고 바로 3번으로 넘어가는 경향이 있지 않은가 한다. 1번에 소홀한 건 반성하지만, 2번은 열심히 해봐야 무슨 소용인가 싶을 때가 있다. 두꺼운 꼬리를 이해하고자 한다면 바로 3번으로 넘어가도 쉽지 않은 경우가 많기 때문이다. 즉 데이터의 어떤 면을 중요하게 여기느냐에 따라 다른 태도가 나올 것이다.

이메일 사용패턴의 폭발성에 관한 바라바시의 연구가 1,2번을 소홀히 하고 3번에 치중했다면, 이에 대한 반론으로서 아마랄 그룹의 연구는 1,2번에 치중한 것으로 보인다. 바라바시의 데이터 분석의 약점(1,2번 소홀)에도 인간 행동을 이해하는 측면에서 바라바시 손을 들어주고 싶다. 아마랄 그룹은 데이터 분석은 잘 했어도 이해의 측면에서는 뻔히 아는 얘기를 할 뿐이다.

마지막으로, 두꺼운 꼬리 부분만 거듭제곱 분포로 맞추어본다는 것과 분포 전체가 거듭제곱 분포라는 건 다르다.