일화의 일반화

내가 작성하는 많은 글은 개인적인 경험에 의거하고 있다. 예전에도 언급했지만 일화는 그 자체로는 많은 이야기를 할 수 없다. 일화는 좋은 이야깃거리가 될 수는 있지만 이로부터 일반화를 하는 것은 무리이다. 크게 보았을 때, 겨우 데이터 포인트 하나에 불과하기 때문이다. 이는 당연하게도 매우 큰 불확실성과 연결된다. 그렇다고 일화 하나하나가 쓸모없는 것은 아니다. 이런 일화가 모여서 불확실성이 줄어들게 된다.

불확실성을 줄이는 가장 손쉬운 방법은 데이터를 늘리는 것이다. 하지만 직접적인 경험을 더 하는 것은 무척 비싼 일이기에 다른 사람들의 경험을 추가적인 데이터로 삼는다. 일화의 일반화라는 관점에서 주의해야 하는 것으로 우리가 이렇게 모은 데이터가 특정한 종류의 편향이 있는지를 확인하는 것이다. 우리가 흔히 배우는 많은 통계 기법은 독립적이고 동일한 분포independent and identically distributed라는 가정을 하고 있다. 안타깝게도 개인이 일화를 수집하면서 만족하기는 쉽지 않은 가정이다. 우리는 선택 편향selection bias 및 확증 편향confirmation bias을 늘 겪기 때문에 수집된 데이터가 모집단을 대표하지 않을 수 있다.

많은 인지적/심리학적 편향들이 그러하듯 이를 근본적으로 해결할 수 있는 뾰족한 수가 있는 것은 아니다. 다만 항상 체계적인 접근을 통해 이를 피하는 노력을 할 수는 있다. 선택 편향과 확증 편향은 수집한 자료에 대한 의심을 항상 하는 체계를 구축하여 피해 볼 수 있다. 기본적으로 동작 방식을 이해하지 못하고 있는 현상에 대해서는 단정적인 자세를 취하지 않도록 한다. 동작을 이해했다고 생각되면 이를 활용하여 미래 예측을 시도한다. 이때 사후 확신 편향hindsight bias를 주의한다.

가장 어려운 것은 본인의 생각 자체가 틀렸을 가능성이 있다는 사실을 자각하는 것으로 보인다. 이는 스스로에 대한 꾸준한 점검과 연습 외에는 좋은 방법이 없는 것 같다.

shurain

일화의 일반화