이블린 폭스 켈러(Evelyn Fox Keller)가 <바이오에세이즈(BioEssays)>에 써낸 2005년도 논문을 읽었습니다. 이 이름을 어디서 봤는지 기억하는 건 어렵지 않았는데요, 석사 1년차때 과학사회학 수업에서 읽었던 바바라 맥클린톡이라는 유전학자의 전기를 쓴 사람이었습니다. 그래서 켈러도 생물학자라고만 생각했는데 위키에는 물리학자라는 말이 먼저 나오네요;;; 이 논문은 아크로에 갔다가 알게 되었습니다.

논문 제목은 "Revisiting "scale-free" networks"입니다. 10년 전 바라바시 그룹에서 척도 없는 연결망(scale-free network; SFN) 모형을 제시하면서 지금까지도 관련된 수많은 연구가 이루어지고 있는데요, 켈러는 이러한 분위기를 비판하고 있습니다. 구체적으로 말하면,
(1) 거듭제곱 분포는 새롭지도 드물지도 않다.
(2) 실제 데이터를 그 분포에 맞추는 건(fitting) 수상쩍게 쉽다.
(3) 그런 분포에 맞추는 게 견고하다고 해도, 그 사실이 연결망의 실제 구조나 그런 구조를 야기하는 과정에 대한 지식에 거의 기여하지 않는다.
(4) 상전이에서 나타나는 거듭제곱 법칙과 (연결망의 이웃수 분포의 거듭제곱 법칙이) 비슷하다고 해서 그게 '새로운 뜻밖의 질서'를 보여줄 거란 기대는 근거가 부족하다.
라고 합니다. 오해가 있을지 몰라 원문을 덧붙입니다. 읽지 않으셔도 상관없습니다.

First, power law distributions are neither new nor rare; second, fitting available data to such distributions is suspiciously easy; third, even when the fit is robust, it adds little if anything to our knowledge either of the actual architecture of the network, or of the processes giving rise to a given architecture (many different architectures can give rise to the same power laws, and many different processes can give rise to the same architecture). Finally, even though power laws do show up in the physics of phase transitions, the hope that the resemblance would lead to a "new and unsuspected order" in complex systems of the kind that physicists had found in their analysis of critical phenomena appears, upon closer examination, to lack basis. - p. 1066

먼저 1, 2를 묶어서 보겠습니다. 제 블로그에도 소개했던 2005년 뉴만의 논문은 거듭제곱 분포의 메커니즘을 잘 정리해놓았는데요, 그걸 보더라도 1920년대 율(Yule)의 연구라든지 1960년대 프라이스(Price)의 논문 인용 연결망 연구 등에서 이웃수의 거듭제곱 분포가 관찰되었고 연구되었죠. 바라바시와 알버트(BA)의 SFN 모형에서 거듭제곱 분포가 나오는 메커니즘은 율 과정(Yule process)을 연결망 버전으로 만든 것에 다름 아니구요. 켈러도 이러한 역사적 사실을 보여줌으로써 SFN의 거듭제곱 분포가 바라바시가 주장하는만큼 새로운 건 아니라고 지적합니다.

1971년에 펠러(Feller)는 당시의 거듭제곱 분포를 남용하는 풍토에 대해 경고하기도 했다네요. 실제 데이터를 다양한 모형으로 맞출 수 있는데 심지어 가장 모순적인 모형이 같은 데이터로 지지되기까지 했다고 합니다. 이러한 지적은 곧 위의 3, 4번으로까지 연결됩니다. 간단히 말해서 이론 모형과 실제 데이터가 1대1 대응이 아닐 수 있다는 말입니다.

켈러는 이러한 문제점을 말하기 위해 아마도 전산+수학 쪽인 것 같은 그룹의 연구를 간단히 소개합니다. 인터넷의 라우터 수준의 연결 구조에 관한 몇가지 모형들을 비교하는데요, 실제 인터넷의 이웃수를 각 노드에 지정해주고, 링크를 랜덤하게 연결하는 모형과 그렇지 않고 퍼포먼스와 견고함이 모두 높게 만든 모형의 결과를 보여줍니다. 랜덤 모형은 랜덤한 세계에서는 나타나기 쉬운 구조를 보여주지만 퍼포먼스도 낮고 허브 공격에 취약합니다. 반면 잘 설계된 모형은 실제로 나타나기 쉽지 않지만 (당연히) 퍼포먼스도 높고 허브 공격에도 견고합니다. 이 두 종류의 모형 중 어떤 게 더 실제 인터넷을 잘 설명할 거냐 하면 후자라는 거죠. 그래서 그 저자들은 "최근의 인기 있는 SFN들은 이론적으로도 실제적으로도 실제 인터넷과는 반대다"라는 결론을 내렸다고 합니다.

켈러는 생물학에서 발견되는 연결망에 대해서도 비슷한 주장을 합니다. 생명체가 '랜덤한 변이'에 의해 진화되어온 것은 사실이지만 그것이 작동하는 메커니즘에 우연적 요소는 거의 없다는 겁니다. <우연과 필연>이 떠오르네요. 그래서 생물학의 연결망을 '랜덤하게 끊어잇기'한 후에도 제대로 기능할 거라는 가정을 도입하는 건 생물학자들에게도 매우 놀라운 일이라고 합니다. 결국 물리학자들이 손쉽게 도입하는 '랜덤함'은 그 근거가 부족하다는 주장으로 보입니다.

제가 사회물리학을 공부하면서 느꼈던 문제점들이 여기에도 연결됩니다. 복잡한 현상을 단순화하는 건 뭘 하든 당연히 필요하지만 그게 지나칠 경우 원래 현상과 아무런 관계가 없거나 아니면 '은유적 분석'으로 전락(?)하는 경우가 많다는 겁니다. 그런 지점에서 그러한 물리 모형들이 실제 현상을 이해하는데 얼마나 새로운 지식을 제공하느냐하는 질문이 생기는 거고요, 켈러도 그 얘기를 하는 거죠.

최근에 생각한 연결망 분석의 딜레마...라고 부를 수 있는 게, 연결망으로 이해될 수 있는 어떤 현상/시스템의 어떤 거시적 속성을 알고 있다면 그 속성을 '증명'하기 위해 연결망 분석을 할 필요가 있느냐, 만일 그러한 속성을 모르고 있다면, 연결망 분석을 통해 얻은 결과를 '검증'할 수 있느냐라는 겁니다. 질문 자체가 거칠기 때문에 어쩌면 우문으로 밝혀질지도 모르지만 일단 써두겠습니다.

이제 켈러의 지적 중 4번을 얘기하고 마치겠습니다. BA가 그들이 '발견'한 연결망에 'scale-free'라는 말을 붙인 건 통계물리의 상전이와 임계현상에서 거듭제곱 분포/관계/법칙이 나타나므로 그와 연관지은 거였죠. 그런데 켈러는 인터넷이 상태의 급격한 변화(상전이)랑 무슨 상관이냐.고 묻습니다. 켈러가 SOC를 모르시는 모양이라 좀 섭섭한데요...;;; 그래도 물어볼만한 거라고 생각합니다. 사실 연결망의 거듭제곱 분포가 임계현상의 임계점으로 이해될 수 있다는 식의 연구도 있지요. 얼마 전에 제 블로그에 쓴 영거리 과정을 연결망으로 본떠서 이해하면 SFN은 응집 전이의 임계점으로 볼 수 있습니다.

생각해볼만한 얘기가 많다보니 깔끔하게 정리하지 못하고 좀 산만해졌네요. 그리고 켈러의 비판에 수긍하는 면도 많고 저도 비슷한 고민들을 해왔던지라 켈러 편에서만 얘기한 것 같습니다. 사실 반론을 펼칠 수 있는 부분들도 있는데 연결망 연구를 하시는 다른 분들 의견도 들어보고 싶고 저도 물리학을 공부하는 입장에서 의견을 정리해보고 싶기도 하네요.