리디는 국내 최초 전자책 서비스 '리디북스'를 선보이며 전자책 시장 점유율 1위 기업으로 성장하고 있다. 리디에서는 웹툰, 웹소설, 전자책 등을 다루고 있으며 그 중에서도 '실시간 랭킹' 섹션이 사용자들이 콘텐츠를 감상할 때 호출되는 감상 데이터 API를 통해 만들어진다. 아무래도 실시간 데이터를 안정적으로 처리해야 하기 때문에 kafka를 도입하게 된 거 같다. 그러면 리디에서는 이 kafka를 어떻게 사용하는지 자세히 알아보자. 기술 블로그 출처 https://ridicorp.com/story/how-to-use-kafka-in-ridi/ 리디에서 Kafka를 사용하는 법 - 리디주식회사 RIDI Corporation 2020년부터 리디는 내부 API를 활용하던 마이크로 서비스들 간의 통합을 점차 ..
오늘은 다나와 상품 색인 파이프라인 글에 대해 리뷰해보려고 한다. 다나와는 컴퓨터, 가전제품, 휴대폰 등의 제품을 가격 비교할 수 있는 사이트이다. 그래서 검색 엔진이 중요한데 검색 개발팀에서 사용하고 있는 동적 색인 서비스에 대해 알아보자. (다나와는 약 11억건의 상품 데이터를 보유하고 있다고 한다. 헉!) 대용량 데이터를 실시간에 가까운 속도로 처리하고, 전문 검색이 가능하도록 엘라스틱 서치를 채택했다. 기술 블로그 출처 https://danawalab.github.io/elastic/2023/11/10/logstash.html 다나와의 상품 색인 파이프라인 다나와에서 사용하는 상품 색인 파이프라인을 개선해봅니다. danawalab.github.io 상품 색인 파이프라인 기능 요약 Indexing ..
오늘은 29CM의 데이터 파이프라인을 리뷰해보려고 한다. 데이터 엔지니어로서 한 회사의 파이프라인을 들여다볼 수 있는 건 되게 재밌고 흔치 않은 기회라고 생각된다. 글은 2023년도 초에 작성되었지만 파이프라인의 초기 상태에서 발전해 나가는 흐름을 파악하기 좋아 선택했다. 기술 블로그 출처 https://medium.com/29cm/29cm-%EB%8D%B0%EC%9D%B4%ED%84%B0-%ED%8C%8C%EC%9D%B4%ED%94%84%EB%9D%BC%EC%9D%B8-%EC%86%8C%EA%B0%9C-5dde09621d81 29CM 데이터 파이프라인 소개 안녕하세요 데이터그로스팀 이진환입니다. 29CM에선 21년 9월 이후부터 데이터에 기반한 의사결정을 원활하게 할 수 있도록 데이터 파이프라인을 빠르..
오늘은 원티드랩에서 데이터 마트를 설립한 배경과 과정에 대한 글이 있어 이를 리뷰하고자 한다. 이전 직장에서 데이터 마트를 만들 때는 기존 대시보드를 바탕으로 만들었었다. 대시보드를 주로 이용하는 사업부와 미팅을 거치며 어떤 식으로 보완되면 좋은지 니즈를 파악하고 마트를 구성했다. 원티드랩에서는 어떻게 데이터 마트를 설계하는지 알아보자. 기술 블로그 출처 https://medium.com/wantedjobs/%EC%9B%90%ED%8B%B0%EB%93%9C%EB%9E%A9-%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%A7%88%ED%8A%B8-%EC%84%A4%EB%A6%BD%EA%B8%B0-bbb54169c6ce 원티드랩 데이터 마트 — 설립기 데이터 마트는 데이터 기반 의사결정에 있어, ..
오늘은 금융권에서 다루는 파이프라인 기술을 찾던 중 나의 부족한 지식을 채워줄 글이 찾아 이를 리뷰해보려고 한다. 제목처럼 Why Kubernetes 에 대해 다루는 글이다. 요즘 많은 회사에서 쿠버네티스를 사용하는데 그 이유가 뭘까 정말 궁금했다. 나는 평소 습관 중에 하나가 왜? 라는 질문을 굉장히 많이 하는 것이여서 일 할 때도, 공부할 때도 왜 이 기술을 택했으며 왜 이렇게 접근해야 하는지를 제일 먼저 생각한다. 그런데 이런 나의 등을 시원하게 긁어주는 글을 발견하게 되었고 홀린 듯 술술 읽어보니 이해하기 쉽게 잘 쓴 거 같아 리뷰하기로 결정했다. 기술 블로그 출처 https://medium.com/naverfinancial/%EC%99%9C-kubernetes-%EC%9D%B8%EA%B0%80-..
이전 직장에서 AWS Glue와 Athena를 이용해 ETL 파이프라인을 구성한 경험이 있다. AWS 내 있는 기술들이다 보니 사용법도 굉장히 쉽고 편했는데 이번 시간에는 이를 이용해서 MongoDB 데이터 분석 방법을 비교해보자. 최근 애플리케이션에서 발생되는 데이터는 주로 JSON 다큐먼트 형태로 저장된다. 이는 MongoDB와 같은 다큐먼트 지향 데이터베이스의 사용도 같이 늘어나게 한다. MongoDB는 사용해본 경험이 아직 없어서 잘 모르지만 이번 글을 통해 어떻게 데이터를 분석하는지 알아보자. 기술 블로그 출처 https://aws.amazon.com/ko/blogs/tech/comparing-mongodb-data-analysis-methods-using-aws-glue-and-amazon-a..