집에서 인터넷 쓰기가 너무 힘드네요. 문의전화를 걸어도 30분은 기다려야 한다는데 20분 기다리다가 끊어버렸거든요;;; 하나의 링크를 만들기 위해 또다른 여러 링크들이 필요한 것 같아요. 웬만하면 인터넷 회사와 일대일로 해결하려고 했는데, 현지인이나 친구의 도움을 얻어야 할 것 같습니다.

어제밤 인터넷이 안되어 <사이언스>에 실린 글 하나를 번역했네요;;; 지난 7월 서울대에서 열린 복잡연결망 학회에서 얼핏 들었던 말인데, 어제 다시 들어서 함 찾아봤습니다. 꼼꼼하게 하지 않은 거라 이상한 게 있으면 알려주세요.

---
계산사회과학(Computational Social Science)

D. Lazer (Harvard U), A. Pentland (MIT), L. Adamic (U of Michigan), S. Aral (MIT, NYU), A.-L. Barabasi (Northeastern U), D. Brewer (Interdisciplinary Scientific Research), N. Christakis (Harvard U), N. Contractor (Northeastern U), J. Fowler (UCSD), M. Gutmann (U of Michigan), T. Jebara (Columbia U), G. King (Harvard U), M. Macy (Cornell U), D. Roy (MIT), and M.V. Alstyne (MIT, Boston U), Science 323, 721-723 (2009)

우리는 연결망에서 살아간다. 규칙적으로 이메일을 확인하고 거의 어디서든 핸드폰으로 통화를 하고 공공교통을 이용하려 교통카드를 긁고 신용카드로 구매한다. 공공장소에서 움직이는 건 비디오 카메라에 잡히고 우리의 의학기록은 디지털 파일에 기록된다. 누구나 볼 수 있는 블로그에 글을 쓰고, 온라인 사회연결망을 통해 친분을 유지한다. 이런 교류는 개인과 그룹의 행동에 관한 포괄적인 그림이 될 수 있는 디지털 흔적을 남긴다. 이들은 우리의 삶과 조직과 사회에 관한 우리의 이해를 변화시킬 잠재력을 지닌다.

이 분야(사회과학)는 엄청난 양의 데이터를 모으고 분석할 능력에 의해 생물이나 물리처럼 변하고 있다. 하지만 데이터로 촉진되는(data-driven) “계산사회과학”은 훨씬 느리게 나타나고 있다. 이 분야는 경제학, 사회학, 정치학의 주요저널에서 거의 눈에 띄지 않는다. 하지만 구글이나 야후 같은 인터넷 회사나 미국 국가안보국 같은 정부기관에서 연구되고 있다. 계산사회과학은 사기업과 정부기관의 배타적인 영역이 될 수 있다. 대신, 사적인 데이터를 다루는 특권을 가진 연구자들이 나타날 수 있다. 그들은 비판되거나 되풀이될 수 없는 논문들을 생산한다. 어떤 시나리오도 지식을 쌓고 입증하고 퍼뜨리려는 장기간의 공익(public interest)에 봉사하지 못할 것이다.

열린 학문 환경에서 계산사회과학은 개인과 집단을 더 잘 이해하게 함으로써 어떤 가치를 사회에 제공할까? 계산사회과학의 발현을 막는 걸림돌은 뭐가 있을까?

지금까지 인간 상호작용에 관한 연구는 주로 일시적이고 관계에 대한 자기보고(self-report) 데이터에 주로 의존해왔다. 비디오 감시, 이메일, “똑똑한” 이름 뱃지 같은 새로운 기술들은 관계의 구조와 내용에 관해 오랜 기간 동안 순간적인 그림을 제공한다. 예를 들어, 그룹 상호작용은 이메일 데이터를 통해 조사될 수 있고 인간의 의사소통의 동역학에 관한 질문들이 제기될 수 있다: 업무그룹은 거의 변화 없이 정체되는가, 아니면 시간에 따라 극적으로 변하는가? 어떤 상호작용 패턴이 아주 생산적인 그룹과 개인을 예측하는가? 우리가 얻는 뉴스와 내용의 다양성이 우리의 힘과 성과를 예측하는가? 얼굴을 맞댄 그룹 상호작용은 “사회계량(sociometer)”으로 평가될 수 있다. 그런 전자장치는 물리적 가까움(proximity), 위치, 이동, 개인의 행동과 집단적 상호작용의 다른 측면들을 잡아낸다. 데이터는 재미있는 질문들을 제기한다. 예를 들어, 가까움 패턴과 조직 내 의사소통, 높은 성과를 내는 개인과 그룹과 연관된 흐름 패턴에 관한 것들이다.

우리는 또한 “거시적” 사회연결망이 어떻게 생겼는지, 그것이 시간에 따라 어떻게 진화하는지를 배울 수 있다. 전화회사는 수년에 걸친 고객 사이의 통화 패턴기록을 갖고 있다. 구글과 야후 같은 전자상거래 포털은 전체적인 의사소통에 관한 즉각연락(instant message) 데이터를 모은다. 이런 데이터가 사회수준의 소통 패턴에 관한 포괄적인 그림을 그려주는가? 이런 상호작용은 어떤 방법으로 경제적 생산성이나 공중위생에 영향을 줄까? 사람들의 이동을 추적하는 것도 점점 더 쉬워지고 있다. 핸드폰은 시간에 따른 사람들의 이동과 물리적 가까움을 대규모로 추적할 수 있게 해준다. 그런 데이터는 유용한 역학적(epidemiological) 통찰을 제공한다: 인플루엔자 같은 병원체는 물리적 가까움으로 촉진되어 어떻게 인구에 퍼지는가?

인터넷은 사람들이 뭘 말하는지, 그들이 어떻게 연락하는지 이해하는 것에 대한 완전히 다른 통로를 제공한다. 이를테면 이번 정치시즌을 생각해보자. 블로그 세계에서 정치 등 이슈에 관한 논의, 소문, 입장들이 퍼지는 것을 추적하면서 말이다. 또한 인터넷을 “돌아다니는(surfing)” 개인들의 행동에서 유권자의 관심은 그들이 수행하는 검색으로 명백해진다. 개인행동을 완전하게 기록할 수 있는 가상세계는 광대한 연구기회를 제공한다. 가상세계가 아니라면 불가능하거나 받아들여질 수 없는 실험을 해볼 수 있다. 비슷하게 사회연결망 웹은 연결망에서 개인의 취향, 분위기, 건강에 이르는 모든 것에 대해 그 개인의 위치가 갖는 효과를 이해할 독특한 기회를 제공한다. 다른 한편 자연언어처리는 인터넷과 다른 출처로부터 광대한 양의 텍스트를 조직하고 분석할 능력을 키워주었다.

간단히 말해서, 계산사회과학은 전례 없는 폭과 깊이와 규모의 데이터를 모으고 분석할 능력을 비집어 여는 떠오르는 분야다. 그러나 실질적인 장벽이 진보를 막을 수 있다. 인간행동을 이해하는 기존의 방법은 전체 인구의 순간순간의 상호작용과 위치를 기술하는 테라바이트의 데이터에 접근하지 못한 채 발달되었다. 예를 들어, 기껏해야 수십명의 “스냅샷” 데이터에 근거해 세워진 기존의 사회학적 연결망이론이 위치, 금융거래, 소통을 포함하는 수백만명의 장기적인 데이터에 관해 무엇을 말해주는가? 사람들이 어떻게 상호작용하는지에 관한 이런 광대한 떠오르는 데이터는 확실히 집합적 인간행동에 관해 정성적으로 새로운 관점을 제공한다. 하지만 우리의 현재 패러다임은 잘 받아들여지지 않을지도 모른다.

계산사회과학을 진전시키는데 거대한 제도적인 걸림돌도 있다. 물리와 생물연구의 대상(subject)은 관찰과 개입에 관해 다른 도전을 나타낸다. 쿼크와 세포는 우리가 그들의 비밀을 밝혀내는 걸 꺼려하지 않는다. 또한 그들은 우리가 발견과정에서 그들의 환경을 바꾼다고 저항하지 않는다. 사회과학에서 계산사회과학으로의 도약은 생물에서 계산생물로의 도약보다 훨씬 크다. 주로 분산감시, 허용요구, 암호화 요구 때문이다. 사회과학에서 쓸 수 있는 자원은 더 적다. 심지어 사회과학과와 공학이나 전산과학과 사이의 물리적/행정적 거리는 다른 과학들보다 더 큰 경향이 있다.

아마도 가장 고통스러운 도전은 접근(access)과 사생활(privacy)에 관한 데이터 측면에 있다. 이런 데이터는 대개 독점되어 있다(핸드폰과 금융거래정보). AOL이 고객들에 관한 “익명처리된(anonymized)” 검색기록을 공개해서 생긴 폭락(debacle)은 사기업에 의한 개인데이터의 공유가 개인과 회사에 미칠 잠재적 위험을 강조한다. 산업과 학계의 협력과 데이터 공유에 관한 견고한 모형이 연구를 촉진하고 소비자 사생활을 안전하게 보호하기 위해, 회사에 책임 보호를 제공하기 위해 필요하다. 더 일반적으로, 사생활 이슈를 적절히 다루는 건 필수적이다. 최근 미국 국가조사국의 지리정보시스템에 관한 보고가 강조하듯이, 주의 깊게 익명처리된 데이터에서조차 개인의 윤곽(profile)을 이끌어내는 게 종종 가능하다. 작년에 미국 국립보건원과 웰컴신탁(Wellcome Trust)이 갑자기 수많은 유전자 자료틀(database)을 온라인 접근에서 삭제했다. 이 자료틀은 겉보기에 익명처리되었는데 단지 특정한 유전자 표지의 집합적 빈도를 보고하는 것이었다. 그러나 탈익명화(deanonymization)의 가능성이 드러났는데 이는 자료틀에서 각 개인으로부터 모은 완전한 양(sheer quantity)의 데이터가 지닌 통계적 능력에 근거한다.

사생활 침해와 연관된 단 하나의 극적인 사건도 미성숙한 계산사회과학을 질식시킬 규칙과 법령을 만들 수 있기 때문에 이런 위험은 줄이면서 연구의 잠재력을 보존시킬 (절차, 기술, 규칙을) 자기조절하는 제도(self-regulatory regime)가 필요하다. 그러한 자기조절 제도의 이정표로서 미국 제도검열국(IRB)은 침입과 개인적 위해의 잠재력을 이해할 수 있는 기술적 지식을 늘려야 한다. 새로운 가능성들은 위해에 관한 그들의 현재 패러다임에 맞지 않기 때문이다. 많은 IRB는 복잡한 데이터가 탈익명화될 가능성을 평가할 정도로 대비하지 못하고 있다. 더구나 IRB는 안전하고 집중된 데이터 토대를 창조하는 걸 감독할 필요가 있다. 기존 데이터는 많은 그룹에 흩어져 있고, 데이터 보안에 관한 기술과 이해가 고르지 못하며, 규약(protocol)도 매우 다양하다. 연구자들 자신이 연구에 필수적인 데이터를 보존하면서도 사생활을 보호할 기술을 개발해야 한다. 이런 시스템은 또한 고객 사생활과 데이터 보안을 다루는 산업에도 쓸모 있을 것이다.

마지막으로 계산사회과학의 발현은 다른 미성숙한 학제간 분야(예, 지속가능성 과학)와도 새로운 학자를 길러내는 패러다임을 개발할 필요를 공유한다. 종신교수위원회와 편집진은 학제간 연구를 출판하려는 노력을 이해하고 보상해줄 필요가 있다. 처음에 계산사회과학은 사회과학자와 전산과학자 팀연구가 될 것이다. 결국, 질문은 학계가 계산사회과학자들을 길러낼 것인지 또는 전산을 교육받은 사회과학자와 사회학을 교육받은 전산과학자로 이루어진 팀을 길러낼 것인지다. 인지과학의 발현은 계산사회과학의 발달을 위한 강력한 모형을 제공한다. 인지과학은 신경생물학부터 철학, 전산과학에 이르는 분야가 관여되어 있다. 그것은 공통된 분야를 창조하기 위한 실질적인 자원의 투자를 이끌어냈고 지난 세대의 공익(public good)을 위한 막대한 진보를 이루어냈다. 우리는 계산사회과학이 비슷한 잠재력을 갖고 있으며 비슷한 투자를 할 만한 가치가 있다고 주장한다.