Spark 데이터 시스템 아키텍처 데이터 병렬처리가 가능하려면? 1. 데이터가 먼저 분산되어야 함 하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록 (128MB) hdfs-site.xml에 있는 dfs.block.size 프로퍼티가 결정 Spark에서는 이를 파티션이라고 부름. 파티션의 기본 크기도 128MB spark.sql.files.maxPartitionBytes: HDFS등에 있는 파일을 읽어올 때만 적용됨 2. 나눠진 데이터를 각각 따로 동시 처리 맵리듀스에서 N개의 데이터 블록으로 구성된 파일 처리시 N개의 Map 태스크가 실행 Spark에서는 파티션 단위로 메모리로 로드되어 Executor가 배정됨 처리 데이터를 나누기 -> 파티셔닝 -> 병렬처리 적절한 파티션의 수 = Executo..
여러 분야에서 공개 데이터셋이 있듯 의료분야에도 공개 데이터셋이 있다. 다른 도메인만큼 다양하진 않지만 가뭄의 콩나듯 있다.. 가장 유명한 MIMIC도 있고, 수술중의 생체신호 데이터와 관련된 vitaldb도 있다. 오늘 소개해드릴 공개데이터셋은 eicu에 대한 데이터셋이다. 보통 eicu-crd라고 부르며 208개 센터의 약 20만명 환자들의 demo, lab, vital 등의 데이터가 담겨져 있다. Overview of the eICU data The eICU Collaborative Database is a collection of tables relating to patients who were treated as part of the Philips eICU program across intens..