의사결정 나무

의사결정 나무 - 회귀

- 겹치지 않는 구역으로 데이터를 나눔

- 특정 구역에 데이터가 있으면, 그 데이터의 예측값은 해당 구역의 평균값임

어떤 구역으로 어떻게 나누어야 하는가?

해당 구역에 있는 데이터의 실제값(y)과 예측값의 오차 제곱합을 최소화하는 구역

RSS(Residual Sum of Squares)

어떤 구역으로 어떻게 나누어야 하는가?

↓

RSS를 최소화하는 모든 구역을 한 번에 찾는 것은 계산적으로 불가능함

↓

위에서부터 순간순간마다 가장 최선의 선택을 하자

- 분류에서는 해당 구역의 평균값을 구할 수 없기 때문에 RSS를 사용할 수 없음

어떤 구역으로 어떻게 나누어야 하는가?

해당 구역에 있는 데이터의 불순도(Impurity)를 최소화하는 구역

불순도(Impurity) : 다른 데이터가 섞여 있는 정도
지니 계수(Gini Impurity) : 불순도 측정방법, 해당 구역 안에서 특정 클래스에 속하는 데이터의 비율을 모두 제외한 값, 다양성을 계산하는 방법

계속해서 나무가 깊어지며 분류/회귀를 진행할 경우, 과적합(Overfitting) 발생 가능성이 높아짐

출처: 앨리스교육

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`