라플라스 스무딩

🏷️ 머신러닝

라플라스 스무딩(Laplace Smoothing)은 확률 추정 시 모든 범주에 가상의 관측값 1개(또는 \(\alpha\)개)를 추가하여, 훈련 데이터에서 한 번도 등장하지 않은 범주에 대해 확률 0이 되는 문제를 방지하는 기법입니다.

핵심

나이브 베이즈에서 훈련 데이터에 없는 단어가 테스트 데이터에 나오면 확률이 0이 되는 문제를 해결합니다
모든 빈도에 \(\alpha\)를 더하고 분모를 적절히 조정합니다 (\(\alpha=1\)이 기본값)
사전 지식을 일부 반영하는 베이즈 추정(Bayesian estimation)의 특수 경우로 볼 수 있습니다
\(\alpha\)가 클수록 균등 분포에 가까워지는 강한 스무딩이 됩니다
텍스트 분류, 언어 모델 등 이산 확률 추정에서 필수적으로 사용됩니다

수식

\[P(x_j = v | y = c) = \frac{\text{count}(x_j = v, y = c) + \alpha}{\text{count}(y = c) + \alpha \cdot |V|}\]