shurain

Harmless stuff is for the weak.

Bayesian Model Selection

Feb 19, 15

베이즈 통계학에서는 베이즈 정리를 사용해서 모델 선택model selection 문제에 접근한다.

$$ p(m | D) = \frac{p(D | m) p(m)}{p(D)} $$

이를 읽어보면 데이터 $D$ 를 바탕으로 판단했을 때 모델 $m$ 이 우리가 찾는 참 모델인 확률은 ($p(m|D)$) 모델 $m$ 이 데이터 $D$ 를 생성해낼 확률 ($p(D|m)$) 과 전체 모델의 사전 확률prior probability ($p(m)$) 에 비례한다. 각 모델이 패러미터 $\theta$ 로 기술된다고 하면 다음의 식을 도출할 수 있다.

$$p(D|m) = \int p(D|\theta, m) p(\theta|m) d\theta = \int p(D|\theta)p(\theta|m)d\theta$$

만약 모든 모델의 사전 확률을 같게 설정하면 $p(m)$ 을 고민할 필요가 없어진다. 마찬가지로 분모의 $p(D)$ 도 모델의 변화에 따라 달라지는 값이 아니므로 고려하지 않아도 좋다.

결국 그렇다면 $p(D|m)$ 이 높으면 $p(m|D)$ 가 높은 셈이니 그냥 복잡한 모델이 더 높은 확률을 갖게 될 것 같기도 하다. 하지만 위의 식을 다시 살펴보면 우리는 해당 모델의 모든 가능한 인자에 대해 적분해야 함을 알 수 있다.

고려하는 두 모델이 1차 선형 회귀linear regression와 2차 선형 회귀라고 해보자. 1차 회귀식은 $y = p x + r$ 꼴로 표현되고, 2차 회귀식은 $y = ax^2 + bx + c$ 꼴로 표현할 수 있다. 모델 1의 패러미터 공간은 $(p, r)$ 로 결정되고 모델 2의 패러미터 공간은 $(a, b, c)$ 로 결정된다. 그렇다면 모델 2가 적분해야 하는 공간은 모델 1이 적분해야 하는 공간에 비해 기하급수적으로 넓다.1

$p(D|m)$ 가 모델이 데이터를 생성할 확률이라는 의미를 다시 되새겨보자. 각 모델은 스스로 잘 표현할 수 있는 데이터에는 충분한 확률 질량probability mass을 할당해야 한다. 그리고 확률은 다 더해서 1이 되어야 한다. 그러므로 두 모델이 비슷한 정도로 같은 현상을 설명해낼 수 있다면 복잡한 모델일수록 관측된 데이터에 충분한 확률 질량을 할당할 수 없다. 이를 베이지안 오컴의 면도날Bayesian Occam's razor이라 부른다.


  1. 한 비트의 정보를 더 모델링할 수 있으면 표현 가능한 현상이 두 배 늘어날 것이다.