aqe

Develop/DevCourseTIL

07.25 데이터 엔지니어링 77일차 - Spark AQE

Spark.sql.shuffle.partitions 이 변수 하나로 다양한 상황의 shuffling을 해결하기는 쉽지 않음 MapReduce 세상에서 mapreduce.job.reduces와 동일 적은 수의 Partition은 병렬성을 낮추고 OOM과 disk spill의 가능성을 높임 -> processing 시간이 오래 걸림 많은 수의 Partition은 task scheduler와 task 생성과 관련된 오버헤드가 생기며 너무 흔한 네트워크 I/O 요청으로 병목 초래 만약 Spark Engine Optimizer가 알아서 Partition의 수를 결정할 수 있다면? -> AQE의 목적 AQE "Dynamic query optimization that happens in the middle of qu..

향식이
'aqe' 태그의 글 목록