확률분포를 이용한 모델과 이론인 베이지안 모델과 이론에 대해 알아보도록 하자

 

Bayesian Model & Bayesian Theory

 

      11) 18세기 영국의 수학자 토마스 베이즈(Thomas Bayes)가 도입.

2) 사전확률(Prior Probability)  : 추가적 정보가 주어지기 전의 정보

3) 사후확률(Posterior Probability) : 추가적 정보가 주어진 상태에서의 사전확률 조건부확률과 같음

4) 사전확륙과 사후확률을 알고 있다면 우도확률(Likehood Probability)을 구할 수 있다.

 

베이즈 정리는 조건부확률을 변형 시켜 도출되었기 조건부확률에 이해가 선행된다 

!!두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리이다.

 

 

 

 

 

 

이해를 위해 예를 들어보자

즉 사건이 발생하고 난 후, 사건발생의 원인에 대한 확률(사후)을 사건발생전에 이미 알고 있는 정보(사전)를 이용하여 구하는 것

따라서 베이지안이론은 특정한 사건이 발생한 후 그 사건의 원인이 될 수 있는 사건들에 대한 사전확률분포를 이용하여 사후에 원인이 될 수 있는 사건들에 관한 사후확률분포를 도출하는 방법을 말한다.

 


 

      여기서 A를 우리가 복원 혹은 인식하고자 하는 대상 이미지의 데이터이고, B가 센서를 통해 인식한 데이터라고 생각을 하면, A의 사전확률P(A)는, B라는데이터가 들어왔을때

       P(A|B)로 변하게되고, 이 값은 다섯번째 관계에 있는 공식에 의해 계산 가능해진다.


이미지 처리과정에서 Bayesian Model 을 사용하기위해서는 각각 픽셀들이 인접한 픽셀들과의 관계를 표현해 주어야한다.

 

베이지안 정리... 아마.. 베이즈정리를 말씀하시는것 같은데...

'베이지안'이라는 것은 통계학에서 데이터를 분석하는 하나의 방법론이라고 할수 있습니다. 그래서 '베이지안 통계학' 이라는 통계학의 분야도 있습니다.
베이지안이라는 것은 데이터를 분석을 할때 관측된 데이터만 가지고 분석을 하는것이 아니고 과거에 이미 알려진 사실 또는 분석자의 주관적인 생각까지 넣어서 분석을 하기 때문에 일반적인 분석보다는 많이 복잡하고.. 따라서 그만큼 정확한 결론을 얻을 수 있습니다. 예전에는 '베이지안'방법이 많이 복잡하기 때문에 연구가 많이 되지 않았지만 요즘은 컴퓨터등이 발달하면서 연구가 활발히 이루어지고 있습니다.
베이지안 방법에 대해서 여기서는 자세한 설명을 어려울것 같습니다. '베이지안 통계학'이라는 책을 찾아보심이 좋을 듯 합니다.


님께서는 아마 '베이즈 정리'에 대해서 물어보시는것 같은데...
'베이즈 정리'는 통계학에서 아주 중요하게 생각하는 '정리' 중 하나입니다.

님께서 '조건부확률'에 대해서 알고있다고 가정하고 설명드리겠습니다.

확률을 구할 표본공간을 서로 겹치지 않게 여러등분을 합니다.

쉽게 생각한다면..
만약 어느 대학의 학생들의 흡연의 비율을 알고싶다고 가정합시다.

그런데... 만약 남학생의 흡연비율이 0.7, 여학생의 흡연비율이 0.2 라는 것을 알고 있고 그학교의 남학생이 60명, 여학생이 40명이라면...
전체흡연비율을 구할 수 있겠죠.

즉, 남학생 60명중 0.7 이 흡연을 하니까 60*0.7=42명
여학생 40명 중 0.2 가 흡연을 하니까 40*0.2=8명.

즉, 이학교의 전체 학생 100명중 남학생 24명, 여학생 8명이 흡연을 하니까 전체중 50/100 = 0.5 이 흡연을 하죠. 

이렇게 확률을 구하는 것을 '전확률공식' 이라고 합니다.

이젠 흡연을 하는 사람들 중 남학생의 비율을 구해보면..

조건부 확률로 구할 수 있겠죠.
흡연하는 학생들 중 남학생의 비율은 다음과 같이 표현합니다.

P(남학생|흡연)=P(남학생이면서 흡연)/P(흡연) -(1)

위에서 흡연의 비율은 구했죠. 남학생일때와 여학생일때로 나누어서요.

그것을 식으로 표현하면..

P(흡연)=P(남학생)*P(남학생의흡연)+P(여학생)*P(여학생의흡연)
=P(남학생)*P(흡연|남학생)+P(여학생)*P(흡연|여학생) ---(2)
=0.6*0.7 + 0.4*0.2 = 0.5

따라서 (1)식에서 P(흡연)대신에 위의에 구한 식 (2)을 넣으면..

P(남학생|흡연)=P(남학생이면서 흡연)/[P(남학생)*P(흡연|남학생)+P(여학생)*P(흡연|여학생)]

여기서 P(남학생이면서 흡연) = P(남학생)*P(흡연|남학생) 으로 둘수 있죠.
조건부 확률에서 P(흡연|남학생)= P(남학생이면서 흡서)/P(남학생) 이니까요.

그렇다면 흡연하는 학생들중 남학생의 비율은 다음과 같이 정리가 됩니다.

P(남학생|흡연)=[P(남학생)*P(흡연|남학생)]/[P(남학생)*P(흡연|남학생)+P(여학생)*P(흡연|여학생)]

위의 식이 바로 '베이즈 정리'입니다.

수식으로 표현하면...
어떤 표본공간을 서로 배반인 k개의 공간을 분할을 해서 그 공간은 각각 B1, B2 , ..., Bk 라고 둔다면... 어떤 특정한 사건 A에 대해서

공간 Bk에서 A라는 사건이 발생할 확률은

P(Bk|A)= [P(Bk)*P(A+Bk)]/[P(B1)*P(A|B1)+P(B2)*P(A|B2)+...+ P(Bk)*P(A|Bk)]

이 됩니다.

이때 베이지안에서는 P(B1)을 '사전확률', P(A|B1)을 '사후확률' 또는 '표본우도' 라고 합니다.
어떤 사건에 대한 예측을 할때 '사전확률'이 미리 주어지는 것이 아무런 정보가 없이 현재의 상황인 '사후확률'만 가지고 예측하는것보다 더 정확하게 예측할 수 있을겁니다.

예를 들어서 어느 학교학생들의 평균키가 170 이라고 할때.
어떤 학생이 강의실 밖에 있을때 그 학생의 키가 얼마인지 맞추는 게임을 한다고 가정합시다.
만약 단지 그학교학생들의 평균키가 170인것만 알고 있을 때와 강의실 밖에 있는 학생의 '성별'에 대한 정보까지 알고 있을때 과연 언제 더 정확하게 밖에 있는 학생의 키를 추정할 수 있을까요.. 

만약 성별을 모른다면 기껏해야 '170 이다' 라고 했을때 틀리더라고 가장 비슷한 수치로 틀릴 수 있을 겁니다.
그런데 만약 '여학생'이라는 정보를 알고 있다면 '170'보다는 조금더 작은 '165정도 될거다' 라고 했을때 조금 더 정확하게 추정할 수 있을겁니다. 즉, 정보가 많으면 많을수록 더 정확한 추정을 할수 있습니다.

현재의 상황만 알고 있는것보다 과거의 상황인 '사전확률'을 알고 추정을 할 때 더 정확하게 추정을 할수 있겠죠. 이렇게 '사전확률'까지 고려해서 분석하는 것을 '베이지안분석'이라고 합니다.
제가 베이지안에 대해서는 공부가 많이 부족하기 때문에 정확한 답변이 되지 않을수도 있겠네요..


Posted by Name_null