라플라스 스무딩
라플라스 스무딩
라플라스 스무딩(Laplace Smoothing)은 확률 추정 시 모든 범주에 가상의 관측값 1개(또는 \(\alpha\)개)를 추가하여, 훈련 데이터에서 한 번도 등장하지 않은 범주에 대해 확률 0이 되는 문제를 방지하는 기법이다.
핵심
- 나이브 베이즈에서 훈련 데이터에 없는 단어가 테스트 데이터에 나오면 확률이 0이 되는 문제를 해결한다
- 모든 빈도에 \(\alpha\)를 더하고 분모를 적절히 조정한다 (\(\alpha=1\)이 기본값)
- 사전 지식을 일부 반영하는 베이즈 추정(Bayesian estimation)의 특수 경우로 볼 수 있다
- \(\alpha\)가 클수록 균등 분포에 가까워지는 강한 스무딩이 된다
- 텍스트 분류, 언어 모델 등 이산 확률 추정에서 필수적으로 사용된다
수식
\[P(x_j = v | y = c) = \frac{\text{count}(x_j = v, y = c) + \alpha}{\text{count}(y = c) + \alpha \cdot |V|}\]