인공지능

AI/MachineLearning

eICU Collaborative Research Database (eicu-crd)

여러 분야에서 공개 데이터셋이 있듯 의료분야에도 공개 데이터셋이 있다. 다른 도메인만큼 다양하진 않지만 가뭄의 콩나듯 있다.. 가장 유명한 MIMIC도 있고, 수술중의 생체신호 데이터와 관련된 vitaldb도 있다. 오늘 소개해드릴 공개데이터셋은 eicu에 대한 데이터셋이다. 보통 eicu-crd라고 부르며 208개 센터의 약 20만명 환자들의 demo, lab, vital 등의 데이터가 담겨져 있다. Overview of the eICU data The eICU Collaborative Database is a collection of tables relating to patients who were treated as part of the Philips eICU program across intens..

AI/MachineLearning

랜덤 포레스트와 Boosting 알고리즘

랜덤 포레스트(Random Forest) - 의사결정 트리 + Bagging 알고리즘 - 부트스트랩 데이터를 생성할 때, 입력 변수에 대해서도 복원 추출 - 데이터 셋에서 Bootstrap을 통해 N개의 훈련 데이터셋을 생성하고, 생성한 N개의 의사결정 나무들을 학습함 - 학습된 트리들의 예측 결과값의 평균 또는 다수결 투표 방식 이용하여 결합 - 변수의 중요성을 파악할 수 있음 - 변수 일부를 사용하기 때문에 과적합을 방지할 수 있음 Ada Boost(Adaptive Boosting:적응 부스팅) - 이전 학습 과정에서 오분류한 데이터를 다음 학습 과정에서는 잘 분류할 수 있도록 하여 Weak Learner를 Strong Learner로 수정하는 Boosting 알고리즘 - 이전 모델이 오분류한 데이터..

AI/MachineLearning

앙상블 기법

앙상블 기법이란? - 과적합 방지 및 더 높은 성능의 결과를 도출하도록 여러 모델을 활용하는 기법 - Voting(투표), Bagging(Bootstrap Aggregating), Boosting Voting(투표) - 여러 모델의 예측 결과값을 활용하여 투표를 통해 최종 예측값 결정 - 결과가 직관적이며 해석이 쉽고, 평균, 다수결 채택 등의 간단한 연산을 사용함 Bagging(Bootstrap Aggregating) - Bootstrap + Aggregating - 복원 추출을 통해 랜덤 추출한 데이터 셋을 생성하고, 각 데이터를 모델 학습하여 결합한 후, 학습된 모델의 예측 변수를 활용하여 최종 모델을 생성하는 방법 - Bootstrap을 활용한 랜덤 샘플링으로 과적합(Overfitting) 방지 ..

AI/MachineLearning

의사결정 나무

의사결정 나무 - 회귀 - 겹치지 않는 구역으로 데이터를 나눔 - 특정 구역에 데이터가 있으면, 그 데이터의 예측값은 해당 구역의 평균값임 어떤 구역으로 나누어야 하는가? - 구역을 쪼개는 기준 어떤 구역으로 어떻게 나누어야 하는가? 해당 구역에 있는 데이터의 실제값(y)과 예측값의 오차 제곱합을 최소화하는 구역 RSS(Residual Sum of Squares) RSS(Residual Sum of Squares) : 회귀 알고리즘에서 등장한 개념으로 실제값과 예측값의 단순 오차 제곱합 단순오차 제곱합 : 전체 데이터에 대한 실제 값과 예측하는 값의 오차들의 제곱 총합 어떤 구역으로 어떻게 나누어야 하는가? ↓ RSS를 최소화하는 모든 구역을 한 번에 찾는 것은 계산적으로 불가능함 ↓ 위에서부터 순간순간..

AI/MachineLearning

클러스터링(Clustering)

클러스터링(Clustering)이란? 각 개체의 그룹 정보(정답)없이 유사한 특성을 가진 개체끼리 군집화하는 것 Hard Clustering: 특정 개체가 집단에 포함되는지 여부, 클러스터에 속한다(1), 속하지 않는다(0)으로 표현 K-means Clustering 알고리즘이 이에 해당 Soft Clustering: 특정 개체가 집단에 얼마나 포함되는지 정도, 클러스에 속하는 정도로 표현 Gasussian Mixture Model 알고리즘이 이에 해당 클러스터링 목표 (1) 군집 간 유사성 최소화: 다른 군집 간 데이터 간에는 서로 비슷하지 않게 (2) 군집 내 유사성 최대화: 동일 군집 내 데이터 간에는 서로 비슷하게 최적의 군집 개수 K 구하기 다양한 K값을 시도해보고, 비용 함수 그래프가 꺾이는 ..

AI/MachineLearning

과적합과 정규화

과적합(Overfitting)이란? 모델이 주어진 훈련 데이터에 과도하게 맞춰져서 새로운 데이터가 입력 되었을 때 잘 예측하지 못하는 현상 즉, 모델이 과도하게 복잡해져 일반성이 떨어진 경우를 의미함 과적합 방지 방법 1. 교차검증 (Cross Validation) 모델이 잘 적합되었는지 알아보기 위해 훈련용 데이터와 별개의 테스트 데이터, 그리고 검증 데이터로 나누어 성능 평가하는 방법 k-fold 교차검증 : 훈련 데이터를 계속 변경하며 모델을 훈련시킴. 데이터를 k등분으로 나누고 K번 훈련시킴. 2. 정규화 모델의 복잡성을 줄여 일반화된 모델을 구현하기 위한 방법 -> 모델 베타i에 패널티를 부여함 L1 정규화 (Lasso) : 불필요한 입력값에 대응되는 베타i를 정확히 0으로 만듦. L2 정규화 ..

향식이
'인공지능' 태그의 글 목록