시각화 툴이란?
- 대시보드 혹은 BI툴이라고 부르기도 함
- KPI, 지표, 중요한 데이터 포인트들을 데이터를 기반으로 계산/분석/표시해주는 툴
- 결정권자들로 하여금 데이터 기반 의사결정을 가능하게 함
- 현업 종사자들이 데이터 분석을 쉽게 할 수 있도록 해줌
시각화 툴 종류
- Excel, Google Spreadsheet
- Python: 데이터 특성 분석(EDA)에 더 적합
- Looker (구글)
- LookML이 자체언어로 데이터 모델을 만드는 것으로 시작
- 한 번 만들어 놓으면 변경하기 쉬움
- 한 사람이 템플릿만 잘 만들면 다른 사람도 응용할 수 있음
- Tableau (세일즈포스)
- 다양한 제품군 보유, 일부는 사용이 무료
- 한 번 만들어 놓으면 변경하기 어려움
- Power BI (마이크로소프트)
- Apache Superset (오픈소스)
- Mode Analytics, ReDash
Google Studio (google cloud)AWS Quicksight (AWS)
어떤 시각화 툴을 선택할 것인가?
- Looker 혹은 Tableau가 가장 많이 사용되는 추세
- 셀프서비스 대시보드를 만드는 것이 중요
- 안 그러면 매번 사람의 노동이 필요해짐
- 또한 사용하기 쉬워야 더 많은 현업 인력들이 직접 대시보드를 만들 수 있음
- 데이터 민주화
- 데이터 탈중앙화
- 데이터 품질이 점점 더 중요해지며 데이터 거버넌스가 필요한 이유가 됨
- 이러한 측면에서 Looker가 더 좋은 선택이지만 가격이 상당히 비쌈..
Superset
- 다양한 형태의 visualization와 손쉬운 인터페이스 지원
- 대시보드 공유 지원
- 엔터프라이즈 수준의 보안과 권한 제어 기능 제공
- SQLAlchemy와 연동
- 다양한 데이터베이스 지원
- Druid.io와 연동하여 실시간 데이터의 시각화도 가능
- API와 플러그인 아키텍처 제공으로 인한 확장성이 좋음
Superset 구조와 용어
- Flask와 React JS로 구성됨
- 기본으로 sqlite을 메타데이터 데이터베이스로 사용
- Redis를 캐싱 레이어로 사용
- SqlAlchemy가 백엔드 DB 접근에 사용됨
- Database/Dataset
- Database == 관계형 데이터베이스 (ex. Redshift)
- Dataset == 테이블
- Dashboard/Chart
- Dashboard는 하나 이상의 chart로 구성
코호트 분석
- 코호트(Cohort)
- 일반적으로 특정 기간 동안 비슷한 특성을 가진 개인 또는 그룹
- 보통, 속성은 사용자의 서비스 등록월
- 코호트 분석
- 코호트 기반으로 사용자의 이탈률, 잔존률, 총 소비금액 등
- 코호트 기반 사용자 잔존률 (Retention) = 재방문율
- 보통 월기반으로 시각화해서 보는 것이 일반적
반응형