KNN(K-Nearest Neighbor) 기존 데이터 가운데 가장 가까운 k개 이웃의 정보로 새로운 데이터를 예측하는 방법론 유사한 특성을 가진 데이터는 유사 범주에 속하는 경향이 있다는 가정 하에 분류 KNN 원리 설정된 K값에 따라 가까운 거리 내의 이웃의 수에 따라 분류 KNN 특징 직관적이며 복잡하지 않은 알고리즘, 결과 해석이 쉬움 K값 결정에 따라 성능이 크게 좌우됨 딱히 학습이라고 할 것이 없는 Lazy Model 출처: 앨리스 교육
클러스터링(Clustering)이란? 각 개체의 그룹 정보(정답)없이 유사한 특성을 가진 개체끼리 군집화하는 것 Hard Clustering: 특정 개체가 집단에 포함되는지 여부, 클러스터에 속한다(1), 속하지 않는다(0)으로 표현 K-means Clustering 알고리즘이 이에 해당 Soft Clustering: 특정 개체가 집단에 얼마나 포함되는지 정도, 클러스에 속하는 정도로 표현 Gasussian Mixture Model 알고리즘이 이에 해당 클러스터링 목표 (1) 군집 간 유사성 최소화: 다른 군집 간 데이터 간에는 서로 비슷하지 않게 (2) 군집 내 유사성 최대화: 동일 군집 내 데이터 간에는 서로 비슷하게 최적의 군집 개수 K 구하기 다양한 K값을 시도해보고, 비용 함수 그래프가 꺾이는 ..
지도 학습(Supervised Learning) : 얻고자 하는 답(Y)으로 구성된 데이터를 학습 회귀: 데이터를 잘 설명하는 선을 찾아 미래 결과값을 예측 분류: 주어진 데이터가 어떤 클래스에 속할지 여부 예측 비지도 학습(Unsupervised Learning) : 정답이 주어지지 않는 데이터 내에서 숨겨진 구조를 파악하는 비지도 학습 클러스터링: 각 개체의 그룹 정보(정답) 없이 유사한 특성을 가진 개체끼리 군집화하는 것 차원 축소: 고차원 데이터의 차원을 축소하여 데이터를 더욱 잘 설명할 수 있도록 함 출처: 앨리스 교육
서포트 벡터 머신은 높은 성능을 보여주는 대표적인 분류 알고리즘입니다. 특히 이진 분류를 위해 주로 사용되는 알고리즘으로, 각 클래스의 가장 외곽의 데이터들 즉, 서포트 벡터들이 가장 멀리 떨어지도록 합니다. SVM을 위한 사이킷런 함수/라이브러리 from sklearn.svm import SVC: SVM 모델을 불러옵니다. SVC(): SVM 모델을 정의합니다. [Model].fit(x, y): (x,y) 데이터 셋에 대해서 모델을 학습시킵니다. [Model].predict(x): x 데이터를 바탕으로 예측되는 값을 출력합니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt import warnings warnings.fi..
로지스틱 회귀를 위한 사이킷런 함수/라이브러리 from sklearn.linear_model import LogisticRegression: 사이킷런 안에 구현되어 있는 로지스틱 회귀를 불러옵니다. LogisticRegression(): 로지스틱 회귀 모델을 정의합니다. [Model].fit(X, y): (X,y) 데이터 셋에 대해서 모델을 학습시킵니다. [Model].predict(X): X 데이터 바탕으로 예측되는 값을 반환 from data_plot import * # 경고메세지(버전이 낮다던가 다음 버전에서는 지워지는 경우 나타남)를 안 뜨게 해줌 import warnings warnings.filterwarnings(action='ignore') import numpy as np from skl..