앙상블 기법이란?
- 과적합 방지 및 더 높은 성능의 결과를 도출하도록 여러 모델을 활용하는 기법
- Voting(투표), Bagging(Bootstrap Aggregating), Boosting
Voting(투표)
- 여러 모델의 예측 결과값을 활용하여 투표를 통해 최종 예측값 결정
- 결과가 직관적이며 해석이 쉽고, 평균, 다수결 채택 등의 간단한 연산을 사용함
Bagging(Bootstrap Aggregating)
- Bootstrap + Aggregating
- 복원 추출을 통해 랜덤 추출한 데이터 셋을 생성하고, 각 데이터를 모델 학습하여 결합한 후, 학습된 모델의 예측 변수를 활용하여 최종 모델을 생성하는 방법
- Bootstrap을 활용한 랜덤 샘플링으로 과적합(Overfitting) 방지
- 복원 과정이 있어 불균형하거나 충분하지 않은 데이터에 적용 가능
Bootstrap <-> Pasting(비복원 추출)
- 데이터를 복원 추출하는 통계학적 방법
- 데이터를 추출한 이후 다시 원 데이터로 복원한 후 다시 데이터 셋을 추출함
Boosting
- 여러 개의 약한 모델(Weak Learner)을 수정하여 강한 모델(Strong Learner)을 만드는 방법
약한 모델(Weak Learner) : 상대적으로 예측 성능이 떨어지는 모델
- 독립적인 모델을 합산하여 산출하기보다는 기존의 모델을 개선시키는 방향의 앙상블 기법
의사결정 트리와 앙상블 기법을 활용한 다양한 모델
- 랜덤 포레스트
- 부스팅 계열 모델(Ada Boost, Gradient Boosting, XGBoost, LGBM, CatBoost)
출처: 앨리스 교육
반응형