가끔 들르는 블로그에 크리스 앤더슨이 와이어드에 올린 글이 소개되어 읽어보았다. "이론의 끝: 데이터 홍수가 과학적 방법을 쓸모 없게 만들다"라는 다소 자극적인 제목이었다. 날짜를 보니 2008년 6월 23일인데, 벌써 4년 전 글이더라.


비판(?)하기 전에 글 내용을 간단히 소개한다. 30년 전에 조지 박스는 "모든 모형은 틀렸다. 하지만 몇개는 쓸모 있다."고 했단다. 2008년 3월에 오레일리 컨퍼런스에서 구글의 연구책임자 피터 노르빅이 이를 고쳐서 "모든 모형은 틀렸다. 그리고 점점 더 그것들 없이도 해낼 수 있다."고 했단다. 여기서 알 수 있듯이, 페타바이트 데이터 시대에는 더이상 모형에 기대지 않고도 세상을 이해하고 설명할 수 있다는 식의 주장을 펴고 있다.


"데이터가 충분하다면 숫자들이 스스로 말할 것이다"라든지 "(인과가 아니라) 상관만으로 충분하다"하는 말들만 봐도 무슨 얘기를 하려는지 분명해진다. "상관은 인과를 밀어내고 과학은 일관된 모형, 통일이론, 어떤 기계적 설명 없이도 진전할 수 있다"라고까지 한다. 거꾸로 말해서 가설을 세우고 모형을 만들고 검증하던 기존의 과학적 방법은 데이터가 부족해서 필요했던 방식이라고 말하는 것으로 보인다.


여기서 내가 던질 질문은 "이해란 무엇인가"이다. 외국어의 뜻은 모르지만 발음만 익혀서 같은 소리를 낸다고 그걸 이해했다고 말하지 않는다. 그건 기껏해야 현상을 기술(description)하는 것일 뿐이다. 이해는 그 현상의 작동원리를 추상화함으로써 상관을 공식화하고 인과의 고리를 구성하는 과정으로 이루어진다. 그리고 그게 바로 모형/이론이며 이 과정이 바로 과학적 방법이다.


데이터의 양이 이해를 보장해주지 않는다. 아는 게 많은 사람이 다 똑똑한 건 아니다. 열심히 외운 사람이 원리를 이해한 사람을 따라갈 수 없다. 데이터의 양이 많아지면 그만큼 더 많은 모형/이론이 필요해지는 것이지, 모형/이론이 쓸모 없어지지 않는다는 게 내 생각이다. 뭔가 논리적으로 잘 연결은 안되지만 이 정도로라도 써놓고 나중에 더 생각을 다듬어야겠다.


마지막으로, 앤더슨도 데이터 분석을 위해 "통계적 도구들"이 필요하다고 했는데 이쯤에서 통계학에서의 모형이 무엇이냐 하는 문제가 연결될 것 같다. 이 문제는 내가 잘 모르므로 여기서 글을 마친다.