나이브 베이즈
나이브 베이즈
나이브 베이즈(Naive Bayes)는 주어진 클래스 \(y\) 아래에서 모든 특징 \(x_j\)들이 서로 조건부 독립이라는 강한(나이브한) 가정을 사용하는 생성 분류 모델이다. 텍스트 분류에서 특히 효과적이다.
핵심
- 조건부 독립 가정: \(P(x_1, \ldots, x_n | y) = \prod_{j=1}^{n} P(x_j | y)\)
- 실제로는 독립 가정이 틀리지만 놀랍도록 잘 작동하는 경우가 많다
- 스팸 필터링, 문서 분류 등 텍스트 분류에서 강력한 기준선(baseline)이다
- 매개변수 추정이 단순하고 빠르며, 작은 데이터에서도 잘 동작한다
- 라플라스 스무딩으로 훈련에서 보지 못한 단어에 대한 확률 0 문제를 해결한다
수식
\[P(y|x) \propto P(y)\prod_{j=1}^{n} P(x_j|y)\]