배깅
배깅
배깅(Bagging, Bootstrap Aggregating)은 원본 훈련 데이터에서 복원 추출(부트스트랩)로 여러 개의 훈련 세트를 생성하고, 각각에 독립적으로 모델을 훈련한 뒤, 예측을 평균(회귀) 또는 다수결(분류)로 결합하는 앙상블 방법이다.
핵심
- 각 모델이 서로 다른 샘플로 훈련되어 다양성(diversity)이 생긴다
- 앙상블의 예측 분산을 낮추어 과적합을 줄인다
- 병렬로 여러 모델을 훈련할 수 있어 계산 효율적이다
- 랜덤 포레스트는 배깅에 특징 무작위 선택을 추가한 것이다
- 편향이 이미 낮고 분산이 높은 모델(깊은 트리 등)에 특히 효과적이다