안나 브로이도와 아론 클로짓(앞으로 줄여서 BC)의 논문과 이를 둘러싼 논란이 있었는데, 최근 바라바시가 자신의 블로그에 반론 성격의 글을 남겼다. 이 글은 크게 두 부분으로 나뉘는데 '개념적 문제'와 '기술적 문제들'이다.


전자는 이미 Quanta Magazine의 글(참고: 대충 번역)에 소개된 내용과 일부 겹치지만 바라바시의 요점을 다시 간단히 정리해보겠다. 바라바시-알버트 척도 없는 연결망 모형은 이웃수 분포가 거듭제곱 분포가 되는 '기계적 모형'이며 이 모형은 연결망이 성장한다는 것과 이웃수가 많은 노드가 더 많은 이웃에 연결된다는 선호적 연결이라는 두 가정에 기반한다. 또한 이 모형에서 나오는 거듭제곱 지수의 값은 3이다. 바라바시도 언급했듯이 실제 연결망에는 더 복잡하고 다양한 요인이 개입하여 3이 아닌 거듭제곱 지수가 나타날 수도 있고 '순수한' 거듭제곱 모양에서 벗어난 이웃수 분포가 나타나기도 한다. 이렇게 다양한 형태의 이웃수 분포와 그 메커니즘들이 알려져 있는데도 일괄적으로 순수한 거듭제곱 분포를 보이는 연결망이 실제로 얼마나 있는지를 판단하는 게 얼마나 중요한 일이냐는 것이다.


바라바시도 강조했고, 내가 보기에도 가장 중요한 문장을 옮겨보겠다. "실제 연결망의 이웃수 분포에 정확하게 맞는 분포를 찾고자 한다면, 우선 이웃수 분포의 함수형태를 해석적으로 예측하는 생성모형을 먼저 세워야 한다." 문장의 뒷부분은 바라바시가 강조해온 입장이기도 하다. 내멋대로 일반화해보면, 데이터로 얻어진 분포를 잘 맞추는(fit) 것보다 그 데이터 뒤에 숨겨진 메커니즘에 대한 이해가 더 중요하다는 말이다. 물론 데이터 잘 맞추기와 메커니즘 이해하기는 하나가 다른 하나에 늘 우선해야 하는 게 아니라 함께 발전하는 거라고 생각한다. 다만 어디에 더 방점을 두느냐가 다르다고 볼 수 있을 것 같다.


다음으로 '기술적 문제들'을 보자. 바라바시의 반론의 핵심은 이웃수 분포가 거듭제곱 분포가 나오도록 설계된 모형에서 얻어진 분포조차 BC의 통계적 검정을 제대로 통과하지 못했다는 것이다. BC는 각 연결망의 이웃수 분포의 검정 결과에 따라 연결망을 '초-약한(super-weak)', '가장 약한(weakest)', '약한(weak)', '강한(strong)', '가장 강한(strongest)' 이라는 다섯 가지 범주로 나눈다. 여기서 강하다는 건 거듭제곱 분포에 가깝다는 말이다. 바라바시가 지적한 내용을 보려면 BC 논문의 Appendix E를 좀 봐야 한다. BC는 세 가지 연결망 모형을 시험하는데 그 중 하나로서 바라바시-알버트(BA) 척도 없는 연결망 모형을 살짝 '변형'한 모형을 이용한다.


원래 BA 모형은 매번 새로운 노드가 외부로부터 유입되며 이 노드는 기존 노드 중 m개를 선택하여 연결하는데, 기존 노드는 그 노드의 이웃수에 비례하여 선택된다. 이걸 '선호적 연결'이라 부른다. BC는 이 모형을 변형해서 m=3으로 놓고 그 중 2개는 선호적 연결 방식으로 연결되지만 나머지 1개의 노드는 랜덤하게 선택한다. 애초에 원래 BA 모형을 이용한 것이 아니다. 그럼 이렇게 변형된 모형에서 이론적으로 예측되는 이웃수 분포는 무엇인지가 중요한데... 이에 대한 언급은 없는 것 같다. 어쨌든 이 모형으로 노드 5000개 짜리 연결망을 100개 만들어서 시험한다. 그 결과 100개의 연결망 중 '가장 강한' 범주에 0개가 들어가고, '강한' 범주에는 60%가 들어간다.


만일 이렇게 변형된 모형에서도 이론적으로 거듭제곱 분포가 예측된다면 바라바시의 반론, 즉 거듭제곱 분포가 나오도록 설계된 모형조차 제대로 통과하지 못하는 검정을 실제 연결망이 통과할 거라고 기대할 수 있냐는 주장에 힘이 실린다. 그런데 만일 변형된 모형에서 이론적으로 거듭제곱 분포가 예측되지 않는다면 이게 무슨 의미가 있나? 물론 선호적 연결이 들어갔기에 '어느 정도는' 거듭제곱 분포가 나올 거라고 예측되고, 바라바시의 글에도 그 시뮬레이션 결과를 보여주기도 했다. 내가 궁금한 건 '순수한' 거듭제곱 분포가 나오는지 여부다. 어쨌든 확인이 필요한 내용이다.


그리고 또 하나 지적할 수 있는 건 이 연결망이 노드 5000개 짜리라는 것이다. 두꺼운 꼬리를 갖는 분포의 특징은 분포의 영역이 넓다보니 분포가 깔끔하게 나오려면 노드가 매우 많아져야 한다는 것이다. 그런데 노드 5000개면 사실 거듭제곱 꼬리가 충분히 발달하기에 적은 수로 보인다. 왜 하필 이 변형된 모형으로 시험을 한 것일까.가 BC에게 묻고 싶은 질문이다. 이왕 할거면 원래 BA 모형을 했어야 하는 거 아닌가. 그래서 원래 BA 모형이 자신들이 만든 시험을 잘 통과한다는 것을 보여야 뭐가 됐든 앞뒤가 맞는 게 아닐까. 이도 저도 아닌 모형을 시험해서 얻은 결론은 무슨 의미가 있나. 사실 논문을 처음부터 끝까지 자세히 읽은 게 아니라 일부만 보고 선뜻 이런 질문을 던지는게 적절한 태도는 아닌 것 같기는 하다;;; 오늘은 여기까지.


꼬리표: , , , , , , ,
☆ 2018.03.13 23:27 | 공부 | 엮인글(0) | 덧글(1)

  1. + 2018.09.27 22:21  덧글주소 | 고쳐/지워 | 덧글쓰기

    비밀댓글입니다

이름 암호


티스토리 툴바