AI/MachineLearning

의사결정 나무

향식이 2021. 6. 30. 17:13

의사결정 나무 - 회귀

- 겹치지 않는 구역으로 데이터를 나눔

- 특정 구역에 데이터가 있으면, 그 데이터의 예측값은 해당 구역의 평균값

 

어떤 구역으로 나누어야 하는가? - 구역을 쪼개는 기준

어떤 구역으로 어떻게 나누어야 하는가?

해당 구역에 있는 데이터의 실제값(y)과 예측값의 오차 제곱합을 최소화하는 구역

                                      RSS(Residual Sum of Squares)

 

  • RSS(Residual Sum of Squares) : 회귀 알고리즘에서 등장한 개념으로 실제값과 예측값의 단순 오차 제곱합
  • 단순오차 제곱합 : 전체 데이터에 대한 실제 값과 예측하는 값의 오차들의 제곱 총합

 

어떤 구역으로 어떻게 나누어야 하는가? 

RSS를 최소화하는 모든 구역을 한 번에 찾는 것은 계산적으로 불가능함

위에서부터 순간순간마다 가장 최선의 선택을 하자 

 

 

의사결정 나무 - 분류

- 분류에서는 해당 구역의 평균값을 구할 수 없기 때문에 RSS를 사용할 수 없음

 

어떤 구역으로 나누어야 하는가? - 구역을 쪼개는 기준

어떤 구역으로 어떻게 나누어야 하는가?

해당 구역에 있는 데이터의 불순도(Impurity)를 최소화하는 구역

 

  • 불순도(Impurity) : 다른 데이터가 섞여 있는 정도 
  • 지니 계수(Gini Impurity) : 불순도 측정방법, 해당 구역 안에서 특정 클래스에 속하는 데이터의 비율을 모두 제외한 값, 다양성을 계산하는 방법

 

계속해서 나무가 깊어지며 분류/회귀를 진행할 경우, 과적합(Overfitting) 발생 가능성이 높아짐

 

의사결정 나무 특징

  • 결과가 직관적이며, 해석하기 쉬움
  • 나무 깊이가 깊어질수록 과적합(Overfitting) 문제 발생 가능성이 매우 높음

 

출처: 앨리스교육

반응형