수리과학연구정보센터의 수학용어사전에 따르면 maximum likelihood estimator(MLE)를 최우추정량이라고 하네요. 글자 수가 조금 많아져도 좋으니 한국어로 좀더 풀어쓸 수는 없을까 싶습니다. 이를테면, 가장 비슷한 추정량;;;이라든가.

거듭제곱 분포를 보이는 데이터로부터 거듭제곱 지수를 재는 방법에는 여러 가지가 있는데요, 클로짓, 살리지, 뉴만의 논문("Power-law distributions in empirical data")에 자세히 나와 있고요, 그 중에서도 최우추정량(MLE)을 이용하는 방법을 간단히 소개하려고 합니다.

우선 n개의 데이터 {x_1, x_2, ..., x_n}가 거듭제곱 지수가 α인 아래와 같은 거듭제곱 분포를 따른다고 가정합니다.


앞에 붙은 상수 등은 이 분포의 정규화/틀맞춤 조건(normalization condition), 즉 P(x)를 모든 x에 대해 더해주면 1이라는 조건에 의한 겁니다. 각 x_i가 이 거듭제곱 분포를 따를 확률(?)은 P(x_i)이고 이들을 n개의 데이터에 대해 모두 곱해준 양에 로그를 씌운 것을 비슷한 정도(likelihood; 우도)라 부르고 아래처럼 L로 나타냅니다.


이 L이 최대가 되는 α를 찾으면 그 α가 우리가 원하는 결과입니다. L을 α로 미분해서 0이 되는 조건을 이용하면 되겠죠. 그럼 아래와 같은 결과를 얻습니다.


x_0은 그냥 x_i들 중 최소인 놈으로 잡아도 되겠지만, 실제 데이터에서는 깨끗한 거듭제곱 분포가 나오기 시작하는 x_0가 따로 있을 수 있습니다. 그러면 어떤 놈을 x_0로 잡아야 하는지도 문제가 되는데, 어쨌거나 L이 최대가 되는 α와 x_0를 동시에 찾아야 할 수도 있습니다.

마지막으로 이렇게 추정한 거듭제곱 지수 α의 오차에 대해서도 논문에 언급되어 있는데 관심 있으신 분들은 위에 링크한 논문을 보시기 바랍니다.