오늘은 다나와 상품 색인 파이프라인 글에 대해 리뷰해보려고 한다. 다나와는 컴퓨터, 가전제품, 휴대폰 등의 제품을 가격 비교할 수 있는 사이트이다. 그래서 검색 엔진이 중요한데 검색 개발팀에서 사용하고 있는 동적 색인 서비스에 대해 알아보자. (다나와는 약 11억건의 상품 데이터를 보유하고 있다고 한다. 헉!) 대용량 데이터를 실시간에 가까운 속도로 처리하고, 전문 검색이 가능하도록 엘라스틱 서치를 채택했다. 기술 블로그 출처 https://danawalab.github.io/elastic/2023/11/10/logstash.html 다나와의 상품 색인 파이프라인 다나와에서 사용하는 상품 색인 파이프라인을 개선해봅니다. danawalab.github.io 상품 색인 파이프라인 기능 요약 Indexing ..
오늘은 29CM의 데이터 파이프라인을 리뷰해보려고 한다. 데이터 엔지니어로서 한 회사의 파이프라인을 들여다볼 수 있는 건 되게 재밌고 흔치 않은 기회라고 생각된다. 글은 2023년도 초에 작성되었지만 파이프라인의 초기 상태에서 발전해 나가는 흐름을 파악하기 좋아 선택했다. 기술 블로그 출처 https://medium.com/29cm/29cm-%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%8C%8C%EC%9D%B4%ED%94%84%EB%9D%BC%EC%9D%B8-%EC%86%8C%EA%B0%9C-5dde09621d81 29CM 데이터 파이프라인 소개 안녕하세요 데이터그로스팀 이진환입니다. 29CM에선 21년 9월 이후부터 데이터에 기반한 의사결정을 원활하게 할 수 있도록 데이터 파이프라인을 빠르..
더보기 첫 주제에 너무 큰 의미를 담지 말자. 해외여행 갈 때 제일 먼저 해야 할 일은 항공편을 예매해야 한다. 그러나 나라별, 월별, 요일별, 시간별 항공편 금액이 천차만별이기 때문에 저렴하게 잘 갔다오려면 금액비교는 필수이다. 예전에는 옵션에서 날짜를 바꿔가며 비교해야 됐어서 꽤나 까다로웠는데 오랜만에 여행가려고 항공편을 찾아보니 날짜별로 최저가를 확인할 수 있도록 뜨더라! 신기해하고 있던 와중에 이 요금 데이터 수집에 대한 데이터 파이프라인 개발글이 있어 리뷰해보기로 했다:) 기술 블로그 출처 https://squarelab.co/blog/how-to-build-flight-fare-data-pipeline-with-argo/ 최저가 항공 요금 수집을 위한 데이터 파이프라인 개발기 카이트에서는 사용..
빅데이터를 지탱하는 걸까 감당하는 걸까.. 감당 안 돼.. 돌아가.. 시스템은 데이터를 생성하고 데이터를 통해 서로 연결된다 chapter 1 에서는 빅데이터와 관련된 기술이 생겨난 역사적 배경을 되돌아보고 그 기본이 되는 사고방식과 용어를 정리한다. 역사를 잊은 민족에게 미래는 없다라는 말이 있듯이 어떤 시대적 흐름을 이해할 때 그 역사를 되돌아보는 건 굉장히 큰 의미가 있다고 생각한다. 따라서 이러한 마음을 갖고 '빅데이터' 나라의 민족이 되어보도록 하자. 인터넷의 보급으로 세계 곳곳으로부터 엑세스 되는 시스템이 증가함에 따라 전통적인 관계형 데이터 베이스로는 취급할 수 없을 만큼 대량의 데이터가 쌓이게 되었다. 그렇게 축적된 데이터를 처리하기 위해 기존과 다른 구조가 필요했는데 이 때 등장한 기술이..