http://m.kisdi.re.kr/mobile/colm/pro_view.m?seq=29947&category=W&selectPage=1


확률을 대하는 두 가지 관점2014.11.19홍석수 | 통신전파연구실


경제학에서 크게 두 가지 학파 흐름이 있다. 아담 스미스는 그의 저서 “국부론”에서 언급한 보이지 않는 손이 존재하기 때문에 시장경제논리에 시장을 맡기고 정부개입을 최소화하는 자유방임주의를 주장한다. 후대에 이를 따른 사람들이 고전학파이다. 그 이후, 대공황으로 적극적인 정부개입이 필요하다는 케인즈 학파가 등장하게 된다. 그 이후에도 두 학파의 주장을 절충을 주장하는 학파들도 등장하기는 하였으나, 고전학파와 케인즈 학파의 대립은 비단 경제학을 전공하지 않은 사람들이라도 한번은 들어봤을 법한 일일 것이다.

통계학에도 경제학의 고전학파와 케인즈 학파의 갈등처럼 비슷한 유형의 대립이 존재한다. 빈도주의자(Frequentist)와 베이지안(Bayesian) 사이의 논쟁이 그것이다. 

빈도주의자를 대표하는 학자는 현대 통계학의 아버지라 일컬어지는 현존하는 통계적 추정과 검정의 토대를 정립한 로널드 피셔가 있으며, 베이지안 학자는 토마스 베이즈(실제로 토마스 베이즈는 베이지안 이론의 정립에는 그리 큰 영향을 미치지는 못했다.), 라플라스, 앨런 튜링, 존 튜키 등이 있었다. 베이지안 접근법은 고전 통계학에서 해결하지 못하는 문제들을 컴퓨터 연산 능력의 성장과 맞물려 발전하여왔다.

여기서 두 방법론의 근본적인 차이를 간단한 예를 들어 설명하고자 한다. 먼저, 확률(probability)이란 불확실성을 계량화하여 표현하는 방법이며, 통계학은 오차(error)를 통제하여 결과적으로 우리가 알아내고자하는 특정한 모수(parameter)를 추정하는 학문이다. 두 접근법에서 의미하는 확률의 개념이 다소 차이가 있어, 이로부터 파생되는 방법론이 전혀 다른 형태로 발전하여왔다.

먼저, 빈도주의적 접근방법은 우리가 쉽게 접할 수 있는 가설 검정이라 이해하면 쉬울 것이다. 귀무가설과 대립가설을 세우고, 귀무가설에 근거한 검정통계량을 얻은 후, 분포에 맞는 임계값과 비교하여 귀무가설을 기각하느냐 마느냐하는 것들은 모두 빈도주의적 접근법에 해당한다. 이들이 주장하는 확률이라는 개념은 객관성을 가지고 있다. 다시 말해 확률을 발생하는 현상의 빈도수에 대한 기술로 보는 것이다. 반면 베이지안들은 확률을 현상에 대한 관찰자의 주관적 믿음으로 본다. 이해하기 쉬운 예를 통해 확률을 대하는 두 가지 관점을 살펴보자.

정육면체의 주사위가 있다고 가정하자. 단, 주사위가 모서리로 서거나, 갑자기 사라지거나 여섯 면이 펼쳐지는 경우가 발생할 수 없는 아주 공평한 주사위라 가정하자. 여기서 주사위를 던져 3이 나올 확률이 무엇이냐고 우리에게 묻는다면 당연히 1/6이라고 답할 것이다. 1/6을 이끌어내는 빈도주의자들의 접근법은 다음과 같다.  

1. 주사위를 던져 나올 수 있는 총 경우의 수(표본공간, smaple space)는 {1, 2, 3, 4, 5, 6}이다.
2. 주사위는 공평(fair)하기 때문에 60,000번을 던지면 3이 나오는 경우(사건, event)는 10,000번의 빈도로 발생할 것이다.
3. 귀무가설을 참된 확률값을 1/6로 놓고, 실험을 통해 검정통계량 값을 구해, 귀무가설을 기각할 것인지 아니할 것인지 검정을 한다.
4. 검정 결과 참된 확률값이 1/6이라는 귀무가설을 기각할 수 없기 때문에 구하고자 하는 확률값은 1/6이다.

반면 베이지안들의 접근법은 이와는 판이하게 다르다.

1. 주사위를 던져 3의 눈이 나올 확률은 0에서 1사이의 실수값을 갖는다.
2. 나는 평소 다른 수보다 3이라는 수가 더 많이 나오는 것 같아, 1/6보다는 조금 큰 1/4정도 될 것이라 생각한다.(여기서 1/4은 사전확률(prior probability)이다.)
3. 실제로 이를 확인하기 위해 60,000번의 주사위를 던졌는데 10,021번의 3이 나왔다.(이는 실험을 통한 데이터이다. 데이터에 대한 최대우도함수(likelihood function)에 대한 설명은 하지 않기로 하자.)
4. 실험결과가 실제 내 생각과 다르게 나왔기 때문에, 내가 세운 사전확률을 수정하여 새로운 확률을 구하자.(이를 사후확률(posterior probability)이라 한다.)

빈도주의자들은 10,021/60,000이라는 값은 실험을 통해 우리가 확신하고 있는 주사위를 던져 3이 나올 확률이 1/6이라는. 다시 말해, 10,021/60,000은 참된 확률값 1/6의 추정치에 불과하다는 것이다.(물론, 모수에 대한 직관적으로 값을 얻어낼 수 없다면, 이 추정치는 모수를 대신하는 중요한 값이 된다.) 

빈도주의자들은 참된 확률값은 분포를 갖지 않으며, 고정되어있고 존재하지만 알려지지 않은 상수로 본다. 반면, 베이지안들은 참된 확률값은 분포를 가진다고 가정한다. 즉, 참된 확률값의 분포는 존재하지만, 참된 확률값이 단 하나로 고정되어 있지 않는 확률 변수(random variable)라는 의미이다. 따라서

베이지안 관점은 직관적이지 않은 접근법이 아니다. 이와 관련된 확률을 이용한 의사결정은 우리 주변에서 쉽게 접할 수 있다. 예컨대, 의사들이 우리의 병력기록에 근거해 현재 증상에 대한 가장 가능성 높은 병을 가정하고 검사를 진행하는 것도 새로운 정보를 업데이트하는 것이다. 또한, 우리가 사용하는 이메일의 스팸메일을 필터링하는 원리도 베이지안 이론을 근거한 알고리즘에 있다.

실제로 이 둘 사이의 논쟁이 이렇게 치열하였던가 하는 의심이 들기도 한다. 왜냐하면, 이러한 관계에 대해 설명하는 책들이 마케팅의 측면에서 둘 사이의 관계를 좀 더 드라마틱하게 어긋나게 묘사하려는 경향이 없지 않아 있기 때문이다. 

몇몇 빈도주의자들은 베이지안 접근법이 지나치게 주관에 의존한다는 점과 추정과 검정의 대상이 되는 참값, 즉 모수(parameter), 가 고정된 상수가 아닌 분포를 갖는 확률변수라는 점에 대해 비판을 하고, 이를 인정할 수 없다고 주장한다. 반면, 이 두 가지 접근법 모두를 수용하는 사람들도 많다. 특정한 학문에 대해 잘 알지 못하는 사람들이라면, 이 두 가지 개념을 구분하지 못할 수 있다. 비단 확률이라는 개념에 대해서 뿐만 아니라, 학문을 배우는 사람에게는, 자신이 속한 분야에서 이러한 성질을 가진 언어들을 정확히 구분하고 활용하는 덕목이 반드시 필요다고 생각된다.


'Statistics' 카테고리의 다른 글

신뢰구간 (펌)  (0) 2015.05.17
정규분포 (펌)  (0) 2015.05.17
우도_Likelihood(펌)  (0) 2015.05.06
MOOC 소개 (펌)_zeronova.kr  (0) 2015.05.06
MOOC 데이터 사이언스 코스 리뷰 (펌)  (1) 2015.05.06
Posted by Name_null