더보기 첫 주제에 너무 큰 의미를 담지 말자. 해외여행 갈 때 제일 먼저 해야 할 일은 항공편을 예매해야 한다. 그러나 나라별, 월별, 요일별, 시간별 항공편 금액이 천차만별이기 때문에 저렴하게 잘 갔다오려면 금액비교는 필수이다. 예전에는 옵션에서 날짜를 바꿔가며 비교해야 됐어서 꽤나 까다로웠는데 오랜만에 여행가려고 항공편을 찾아보니 날짜별로 최저가를 확인할 수 있도록 뜨더라! 신기해하고 있던 와중에 이 요금 데이터 수집에 대한 데이터 파이프라인 개발글이 있어 리뷰해보기로 했다:) 기술 블로그 출처 https://squarelab.co/blog/how-to-build-flight-fare-data-pipeline-with-argo/ 최저가 항공 요금 수집을 위한 데이터 파이프라인 개발기 카이트에서는 사용..
더보기 데이터 엔지니어로써 OLAP와 OLTP의 차이를 이해하고 이를 실무에서 효과적으로 활용할 수 있는 능력은 굉장히 중요하다고 생각한다. 따라서 글로 정리하며 OLAP와 OLTP의 차이를 깊이있게 파악하고 실제 업무에 적용하면 효율적인 데이터 관리 및 분석을 할 수 있을 거 같다. 데이터 처리 방식 기업은 데이터를 효과적으로 의사 결정에 활용하기 위해 여러 노력을 한다. 이를 위해 많은 조직이 OLTP(Online Transaction Processing)와 OLAP(Online Analytical Processing)라는 두 가지 중요한 데이터 처리 방식을 적절히 도입한다. 이번 글에서는 OLTP와 OLAP의 공통점을 살펴보고 각각의 특징과 차이점에 대해 알아보자. 공통점 먼저, 공통점부터 살펴보면..
더보기 다양한 기술 중 어떤 기술을 채택할 것인가에 대해 고민할 때, 최첨단의 화려한 기술을 쫓는 데만 몰두하기 쉽다. 하지만 그것은 좋은 방법이 아니라고 말한다. 개인적으로 판단했을 때 기술은 더 나은 방향으로 발전하기 때문에 최신 기술이 가장 좋을 것이라고 생각했다. 하지만 이번 챕터를 읽고나서 이는 굉장히 위험한 생각이라는 것을 깨달았다. 그렇다면 어떤 기준으로 기술을 선택해야 할까? 곧 실무자가 되어 실제로 기술을 선택해야 하는 날이 올 때, 당황하지 않기 위한 대비책으로 이번 글을 정리했다. 그 기술이 데이터 제품과 광범위한 비즈니스에 가치를 더해줄 수 있는가? 데이터 엔지니어링 수명 주기 전체에 걸친 기술 선택 아키텍처를 올바르게 구축하기 전까지는 기술을 먼저 선택하는 일이 없도록 유의해야 한..
더보기 데이터 수명 주기를 다룬 후 아키텍처 설계에 대해 설명한다는 것은 우수한 아키텍처가 엔지니어링에 있어서 그만큼 중요하다는 뜻인 거 같다. 공감 하는게, 견고한 데이터 엔지니어링을 한다는 것은 곧 견고한 데이터 아키텍처가 기반이 되어야만 가능한 일이라고 생각한다. 이번 chapter3 후기도 chapter2와 마찬가지로 주관적인 메모장 정도이므로 책의 내용이 궁금하다면 꼭 구매해서 정독해보는 걸 추천한다. 데이터 아키텍처란? 기업의 진화하는 데이터 요구 사항을 지원하는 시스템 설계이다. 최적의 시스템을 설계하려면 모든 단계에서 트레이드오프를 고려해야 하며 동시에 값비싼 기술 부채를 최소화해야 한다. 되돌릴 수 있는 결정을 내려야 한다. 즉, 유연성과 트레이드오프의 균형을 유지하는 것이 중요하다. 우..
더보기 Chapter1은 데이터 엔지니어링이 무엇인지 파악하는 단원이였다면 Chapter2에서는 1에서 수차례 강조되었던 데이터 엔지니어링 수명 주기에 대해 설명한다. 이 책을 읽으며 가장 마음에 들었던 점은 화려한 최신 기술들을 설명해주는 것이 아닌 데이터 엔지니어링의 숲을 파악할 수 있도록 집필되었다는 점이다. 이 분야에 조금이라도 관심있는 사람이라면 알 것이다. 이 직무는 굉장히 다양한 기술의 집합이라는 것을.. 그러나 기술의 집합이라고 보는 관점에서 벗어나도록 장려하는 것이 이 책의 주요 목표라고 한다. 따라서 이 후기도 단순한 책의 요약이 아닌, 데이터 엔지니어로 성장하고 생각하기 위해 주관적으로 되새기고 싶은 내용들의 메모 정도로 생각하길 바란다. Chapter.2 데이터 엔지니어링 수명 주기..
데이터 처리의 일반적인 단계 데이터 수집 (Data Collection) 데이터 저장 (Data Storage) 데이터 처리 (Data Processing) 이 과정에서 서비스 효율을 높이거나 의사결정을 더 과학적으로 하게 됨 데이터 처리의 고도화 처음에는 배치로 시작 처리할 수 있는 데이터의 양이 중요 (얼마나 큰 데이터를 한꺼번에 처리할 수 있는가) 서비스가 고도화되면서 실시간 처리 요구가 생기기 시작 Realtime 처리 vs Semi Realtime 처리 동일 데이터 소비가 필요한 케이스 증가: 다수의 데이터 소비자 등장 처리량(Throughput) vs 지연시간(Latency) 처리량(Throughput): 주어진 단위 시간 동안 처리할 수 있는 데이터의 양 클수록 처리할 수 있는 데이터의 양이..