기계학습과 정보이론

기계가 세상의 모델을 만들어가는 과정으로부터 우리 자신에 대해 추론해볼 수 있을 것이라는 기대가 있다. 기계가 세상을 모델링하는 방법에 대한 시각도 여럿 존재한다. 그중 하나가 정보이론적인 관점이다.

가장 기본 중 하나인 maximum likelihood estimation (MLE)을 생각해보자. MLE는 데이터 $X$가 주어졌을 때, 이를 가장 잘 생성했을 모델 $\theta$를 찾아내어 이를 현실에 대한 모델로 사용하는 방법이다.¹ 이는 직관적인 매력이 있다. 가령 우리가 동전을 100번 던져서 앞면이 37회, 뒷면이 63회 나왔다고 하자. MLE는 앞면이 나올 확률이 37%, 뒷면이 나올 확률이 63%라고 말하게 된다. 왜냐하면 우리가 관측한 데이터 (37, 63)을 생성할 확률이 가장 높은 모델은 앞면이 나올 확률이 37%이고 뒷면이 나올 확률이 63%인 모델이기 때문이다.

MLE는 여러모로 좋은 성질을 갖고 있다.² 정보이론의 관점에서 살펴봤을 때, MLE는 empirical distribution과 모델의 distribution의 KL divergence를 최소화하는 문제를 푸는 것과 동치이다. 일상어로 풀어서 설명하자면 우리가 관측한 데이터의 분포와 모델이 생각하는 데이터의 분포를 최대한 비슷하게 만드는 것이 MLE라는 것이다. 우리가 세상을 모델링하는 것도 이와 크게 다르지 않을 것 같다.³ 즉, 관찰된 사건을 잘 포착할 수 있는 방향으로 뇌내 모델이 적응하는 과정을 계속 거치고 있을 것이다.

조금 더 엄밀하게 말하자면 $\theta$에 의해 parametrize되는 parametric한 모델의 family 중 가장 데이터를 생성할 확률이 높은 $\theta$를 MLE로 부르게 된다.↩
Maximum likelihood - properties ↩
Maximum likelihood 말고 다른 접근 방법도 있겠으나 정보이론의 관점에서 크게 다르지 않은 경우가 많다.↩

shurain

기계학습과 정보이론