분류란?
주어진 입력값이 어떤 클래스에 속할지에 대한 결과값을 도출하는 알고리즘
다양한 분류 알고리즘이 존재하며, 예측 목표와 데이터 유형에 따라 적용
그러나, 일반적인 회귀 알고리즘은 분류 문제에 그대로 사용할 수 없다!
그 이유는 선형 회귀는 마이너스 무한대 부터 플러스 무한대의 값을 가질 수 있기 때문이다.
따라서, 해당 클래스에 속할 확률인 0또는 1 사이의 값만 내보낼 수 있도록 선형 회귀 알고리즘 수정해야 한다.
이처럼 분류 문제에 적용하기 위해 출력값의 범위를 수정한 회귀를 로지스틱 회귀(Logistic Regression)이라고 함.
로지스틱 회귀(Logistic Regression)
- 이진 분류(Binary Classification) 문제를 해결하기 위한 모델
- 최소값 0, 최대값 1로 결과값을 수렴시키기 위해 Sigmoid (logstic) 함수 사용
- s자형 곡선을 갖는 함수
- x값이 커질 경우 g(x) 값은 점점 1에 수렴하고, x값이 작아질 경우 g(x) 값은 점점 0에 수렴
확률 결과값 판별 방법, 결정 경계(Decision Boundary)
결정 경계란, 데이터를 분류하는 기준값을 의미함
그렇다면, 출력된 확률값을 어떠한 기준으로 클래스에 속한다고 판별해야 할까?
일반적으로 출력값(확률) 0.5를 기준으로 판별
로지스틱 회귀 특징
- 주로 2개 값 분류(이진분류)를 위해 사용
- 선형 회귀를 응용한 분류 알고리즘이기 때문에 선형 회귀의 특징을 가지고 있음
출처 : 앨리스 교육
반응형