의사결정 나무 - 회귀 - 겹치지 않는 구역으로 데이터를 나눔 - 특정 구역에 데이터가 있으면, 그 데이터의 예측값은 해당 구역의 평균값임 어떤 구역으로 나누어야 하는가? - 구역을 쪼개는 기준 어떤 구역으로 어떻게 나누어야 하는가? 해당 구역에 있는 데이터의 실제값(y)과 예측값의 오차 제곱합을 최소화하는 구역 RSS(Residual Sum of Squares) RSS(Residual Sum of Squares) : 회귀 알고리즘에서 등장한 개념으로 실제값과 예측값의 단순 오차 제곱합 단순오차 제곱합 : 전체 데이터에 대한 실제 값과 예측하는 값의 오차들의 제곱 총합 어떤 구역으로 어떻게 나누어야 하는가? ↓ RSS를 최소화하는 모든 구역을 한 번에 찾는 것은 계산적으로 불가능함 ↓ 위에서부터 순간순간..
지도 학습(Supervised Learning) : 얻고자 하는 답(Y)으로 구성된 데이터를 학습 회귀: 데이터를 잘 설명하는 선을 찾아 미래 결과값을 예측 분류: 주어진 데이터가 어떤 클래스에 속할지 여부 예측 비지도 학습(Unsupervised Learning) : 정답이 주어지지 않는 데이터 내에서 숨겨진 구조를 파악하는 비지도 학습 클러스터링: 각 개체의 그룹 정보(정답) 없이 유사한 특성을 가진 개체끼리 군집화하는 것 차원 축소: 고차원 데이터의 차원을 축소하여 데이터를 더욱 잘 설명할 수 있도록 함 출처: 앨리스 교육
로지스틱 회귀를 위한 사이킷런 함수/라이브러리 from sklearn.linear_model import LogisticRegression: 사이킷런 안에 구현되어 있는 로지스틱 회귀를 불러옵니다. LogisticRegression(): 로지스틱 회귀 모델을 정의합니다. [Model].fit(X, y): (X,y) 데이터 셋에 대해서 모델을 학습시킵니다. [Model].predict(X): X 데이터 바탕으로 예측되는 값을 반환 from data_plot import * # 경고메세지(버전이 낮다던가 다음 버전에서는 지워지는 경우 나타남)를 안 뜨게 해줌 import warnings warnings.filterwarnings(action='ignore') import numpy as np from skl..