의사결정 나무 - 회귀
- 겹치지 않는 구역으로 데이터를 나눔
- 특정 구역에 데이터가 있으면, 그 데이터의 예측값은 해당 구역의 평균값임
어떤 구역으로 나누어야 하는가? - 구역을 쪼개는 기준
어떤 구역으로 어떻게 나누어야 하는가?
해당 구역에 있는 데이터의 실제값(y)과 예측값의 오차 제곱합을 최소화하는 구역
RSS(Residual Sum of Squares)
- RSS(Residual Sum of Squares) : 회귀 알고리즘에서 등장한 개념으로 실제값과 예측값의 단순 오차 제곱합
- 단순오차 제곱합 : 전체 데이터에 대한 실제 값과 예측하는 값의 오차들의 제곱 총합
어떤 구역으로 어떻게 나누어야 하는가?
↓
RSS를 최소화하는 모든 구역을 한 번에 찾는 것은 계산적으로 불가능함
↓
위에서부터 순간순간마다 가장 최선의 선택을 하자
의사결정 나무 - 분류
- 분류에서는 해당 구역의 평균값을 구할 수 없기 때문에 RSS를 사용할 수 없음
어떤 구역으로 나누어야 하는가? - 구역을 쪼개는 기준
어떤 구역으로 어떻게 나누어야 하는가?
해당 구역에 있는 데이터의 불순도(Impurity)를 최소화하는 구역
- 불순도(Impurity) : 다른 데이터가 섞여 있는 정도
- 지니 계수(Gini Impurity) : 불순도 측정방법, 해당 구역 안에서 특정 클래스에 속하는 데이터의 비율을 모두 제외한 값, 다양성을 계산하는 방법
계속해서 나무가 깊어지며 분류/회귀를 진행할 경우, 과적합(Overfitting) 발생 가능성이 높아짐
의사결정 나무 특징
- 결과가 직관적이며, 해석하기 쉬움
- 나무 깊이가 깊어질수록 과적합(Overfitting) 문제 발생 가능성이 매우 높음
출처: 앨리스교육
반응형