랜덤 포레스트
랜덤 포레스트
랜덤 포레스트(Random Forest)는 배깅으로 생성된 여러 의사결정 트리 앙상블로, 각 분할에서 전체 특징 중 무작위로 선택한 부분집합만 고려하여 트리 간의 상관성을 낮추는 알고리즘이다.
핵심
- 각 트리는 부트스트랩 샘플과 무작위 특징 부분집합으로 훈련된다
- 트리 간 상관성이 낮아져 단순 배깅보다 분산 감소 효과가 크다
- 분할마다 \(\sqrt{d}\)개(분류) 또는 \(d/3\)개(회귀)의 특징을 무작위로 선택하는 것이 일반적이다
- 특징 중요도(feature importance)를 자연스럽게 추정할 수 있다
- 훈련 및 예측이 쉽게 병렬화되어 대규모 데이터에서도 효율적이다