사이킷런 라이브러리 : 머신러닝 모델 구현 뿐만 아니라 예시 데이터 셋, 데이터 전처리, 세부 조정, 모델 평가등과 같은 유용한 기능들을 제공 데이터 준비를 위한 사이킷런 함수/라이브러리 from sklearn.model_selection import train_test_split : 학습용 데이터와 테스트용 데이터를 나누어주는 기능을 불러옵니다. train_test_split(X, y, test_size=0.3, random_state=0) : 데이터의 70%를 학습에 사용하고, 나머지 30%의 데이터를 테스트용 데이터로 나눈 결과 데이터를 반환합니다. 단순 선형 회귀를 위한 사이킷런 함수/라이브러리 from sklearn.linear_model import LinearRegression : 단순 선형..
회귀 분석의 절차 X라는 값이 입력되면 Y = 베타0 + 베타1*X라는 계산식을 통해 값을 산출하는 예측 함수를 정의한다. 실제 값 y와 예측 함수를 통해 도출된 예측값 pred_y간의 차이를 계산한다. 계산한 차이에 기반하여 베타0와 베타1를 업데이트하는 규칙을 정의하고 이를 바탕으로 베타0와 베타1의 값을 조정한다. 위의 과정을 특정 반복 횟수(iteration) 만큼 반복한다. 반복적으로 수정된 베타0와 베타1를 바탕으로 Y = 베타0 + 베타1*X라는 회귀식을 정의한다. import numpy as np import matplotlib.pyplot as plt # 데이터를 생성하고 반환하는 함수 def load_data(): X = np.array([[8.70153760], [3.90825773]..
여러 문자열을 포함하는 모든 행 검색하기 어떤 문자열을 포함하는 행을 찾기 위해선 contains라는 함수를 사용해야 한다. 만약 여러 문자열을 포함하는 모든 행을 찾고 싶다면 어떻게 해야할까? 다섯개 정도까지는 직접 &와 |를 이용해서 코드를 쓸 수 있지만 그 이상으로 넘어가면 지저분해진다. 따라서 join함수를 이용해 간단하게 써보자. 예시 코드 import pandas as pd # 포함하고자 하는 문자열 리스트 생성 example_list = ['apple', 'red', 'peach', 'blue'] # 데이터프레임 생성 df = pd.DataFrame(data) # join함수를 이용하여 이어주고 contains 함수에 넣기 test = '|'.join(example_test) result =..