회귀 분석이란?
데이터를 가장 잘 설명하는 선을 찾아 입력값에 따른 미래 결과값을 예측하는 알고리즘
적절한(완벽할 수 없음) β0와 β01을 찾는 것이 회귀분석에서 해야하는 일
* Loss function : 모델이 예측하는 값과 실제 값의 차이
Loss function을 최소로 하는 β0와 β1을 구하는 것이 회귀분석이다.
어떻게 하면 가장 적합한 β0와 β1을 찾을까?
-산 정상 오르기
회귀 분석 개념 정리
Loss Function(실제 값과 모델이 예측하는 값의 오차)를 최소화하는 Gradient Descent(최적의 베타제로, 베타원을 찾는 알고리즘)을 통해 데이터를 가장 잘 설명할 수 있는 선을 찾는 방법
회귀 분석의 절차
- X라는 값이 입력되면 Y = \beta_0 + \beta_1 X 라는 계산식을 통해 값을 산출하는 예측 함수를 정의합니다.
- 실제 값 y와 예측 함수를 통해 도출된 예측값 pred_y간의 차이를 계산합니다.
- 계산한 차이에 기반하여 \beta_0 와 \beta_1 를 업데이트하는 규칙을 정의하고 이를 바탕으로 \beta_0 와 \beta_1 의 값을 조정합니다.
- 위의 과정을 특정 반복 횟수(iteration) 만큼 반복합니다.
- 반복적으로 수정된 \beta_0 와 \beta_1 를 바탕으로 Y = \beta_0 + \beta_1 X 라는 회귀식을 정의합니다.
#np.zeros 는 초기화값을 0으로 해줌/ 1,1은 shape을 의미
ex) beta_0 = np.zeros((1,1))
단순 선형회귀
- 가장 기초적이나 여전히 많이 사용되는 알고리즘
- 입력값이 1개인 경우에만 적용가능
- 입력값과 결과값의 관계를 가장 알아보는 데 용이함
- 입력값이 결과값에 얼마나 영향을 미치는지 알 수 있음
- 두 변수 간의 관계를 직관적으로 해석하고자 하는 경우 활용
출처 : 앨리스 교육
반응형