의사결정 트리
의사결정 트리
의사결정 트리(Decision Tree)는 데이터를 특징값 기준으로 재귀적으로 분할하여 최종 예측값(분류 또는 회귀)을 내리는 트리 구조의 비매개변수 모델이다.
핵심
- 내부 노드는 특징에 대한 질문, 리프 노드는 최종 예측값이다
- 분할 기준으로 분류에는 정보 이득(information gain)·지니 불순도, 회귀에는 MSE 감소를 사용한다
- 해석이 쉽고 전처리(스케일링, 원핫 인코딩)가 거의 필요 없다
- 깊은 트리는 과적합되기 쉬우므로 가지치기(pruning)나 최대 깊이 제한이 필요하다
- 배깅, 랜덤 포레스트, 부스팅의 기본 약학습기(weak learner)로 사용된다