의사결정 트리

🏷️ 머신러닝

의사결정 트리(Decision Tree)는 데이터를 특징값 기준으로 재귀적으로 분할하여 최종 예측값(분류 또는 회귀)을 내리는 트리 구조의 비매개변수 모델입니다.

핵심

내부 노드는 특징에 대한 질문, 리프 노드는 최종 예측값입니다
분할 기준으로 분류에는 정보 이득(information gain)·지니 불순도, 회귀에는 MSE 감소를 사용합니다
해석이 쉽고 전처리(스케일링, 원핫 인코딩)가 거의 필요 없습니다
깊은 트리는 과적합되기 쉬우므로 가지치기(pruning)나 최대 깊이 제한이 필요합니다
배깅, 랜덤 포레스트, 부스팅의 기본 약학습기(weak learner)로 사용됩니다