나이브 베이즈

🏷️ 머신러닝

나이브 베이즈

나이브 베이즈(Naive Bayes)는 주어진 클래스 \(y\) 아래에서 모든 특징 \(x_j\)들이 서로 조건부 독립이라는 강한(나이브한) 가정을 사용하는 생성 분류 모델이다. 텍스트 분류에서 특히 효과적이다.

핵심

조건부 독립 가정: \(P(x_1, \ldots, x_n | y) = \prod_{j=1}^{n} P(x_j | y)\)
실제로는 독립 가정이 틀리지만 놀랍도록 잘 작동하는 경우가 많다
스팸 필터링, 문서 분류 등 텍스트 분류에서 강력한 기준선(baseline)이다
매개변수 추정이 단순하고 빠르며, 작은 데이터에서도 잘 동작한다
라플라스 스무딩으로 훈련에서 보지 못한 단어에 대한 확률 0 문제를 해결한다

수식

\[P(y|x) \propto P(y)\prod_{j=1}^{n} P(x_j|y)\]