Route53 Amazon Route53은 가용성과 확장성이 뛰어난 DNS(도메인 이름 시스템) 웹 서비스 세가지 주요 기능, 즉 도메인 등록, DNS 라우팅, 상태 확인을 조합하여 실행 public host zone 과 private host zone 존재 Route53 = DNS(네임서버) + 모니터링 + L4 + GSLB 1. 도메인 이름 등록 웹 사이트의 이름(예: example.com)이 필요 Route 53을 통해 웹사이트 또는 웹 애플리케이션의 이름, 즉 도메인 이름을 등록 2. 인터넷 트래픽을 도메인의 리소스로 라우팅 사용자가 웹 브라우저를 열어 주소 표시줄에 도메인 이름(example.com) 또는 하위 도메인 이름(acme.example.com)을 입력한 경우 Route 53은 브라우저..
AWS EC2란? Amazon Web Service의 Elastic COompute Cloud(EC2) 서비스이다. EC2는 가상 컴퓨팅 환경을 제공하여 사용자가 필요에 따라 가상 서버(인스턴스) 프로비저닝하고 실행할 수 있도록 도와준다. EC2를 사용하면 사용자는 필요한 용량과 성능을 가진 가상 서버를 선택하고, 원하는 운영 체제를 설치하고, 필요에 따라 스토리지를 연결 할 수 있다. EC2 인스턴스는 유연하게 확장할 수 있어서 프로젝트의 요구 사항에 따라 가용성과 확장성을 조정할 수 있다. 또한, EC2 인스턴스는 필요에 따라 시작, 중지, 종료 등의 조작을 수행할 수 있으며, 사용자는 트래픽 패턴이나 작업 부하에 따라 인스턴스 수를 자동으로 조절할 수 있는 오토스케일링 기능도 사용할 수 있다. 인스..
JOIN이란? SQL 조인은 두 개 혹은 그 이상의 테이블들을 공통 필드를 가지고 머지하는데 사용된다. 이는 스타 스키마로 구성된 테이블들로 분산되어 있는 정보를 통합하는데 사용된다. 왼쪽 테이블을 LEFT라고 하고 오른쪽 테이블을 RIGHT라고 하자. JOIN의 결과는 방식에 상관없이 양쪽의 필드를 모두 가진 새로운 테이블을 만들어내게 된다. 조인의 방식에 따라 다음 두가지가 달라진다. 어떤 레코드들이 선택되는지? 어떤 필드들이 채워지는지? → 거의 LEFT JOIN과 INNER JOIN이 사용 된다. JOIN 문법 SELECT A.*, B.* FROM raw_data.table1 A ____ JOIN raw_data.table2 B on A.key1 = B.key1 and A.key2 = B.key2..
가장 많이 사용된 채널은 무엇인가? 가장 많이 사용되었다는 정의는? 사용자 기반 아니면 세션 기반? 필요한 정보 - 채널 정보, 사용자 정보 혹은 세션 정보 먼저 어느 테이블을 사용해야 하는지 생각! user_session_channel? session_timestamp? 혹은 이 2개의 테이블을 조인해야 하나? SELECT channel, COUNT(1) AS session_count, COUNT(DISTINCT userid) AS user_count FROM raw_data.user_session_channel GROUP BY 1-- GROUP BY channel ORDER BY 2 DESC;-- ORDER BY session_count DESC 가장 많은 세션을 만들어낸 사용자 ID는 무엇인가? S..
SQL의 기본 먼저 다수의 SQL 문을 실행한다면 세미콜론으로 분리 필요 SQL1문; SQL2문; SQL3문; SQL 주석 --: 인라인 한줄짜리 주석, 자바에서 //에 해당 /* -- */: 여러 줄에 걸쳐 사용 가능한 주석 SQL 키워드는 대문자를 사용한다던지 하는 나름대로의 포맷팅이 필요 팀 프로젝트라면 팀에서 사용하는 공통 포맷이 필요 테이블/필드 이름의 명명규칙을 정하는 것이 중요 단수형 vs 복수형 _ vs CamelCasing DDL: 테이블 구조 정의 언어 1. CREATE TABLE Primary key 속성을 지정할 수 있으나 무시됨 Primary key uniqueness BigData 데이터 웨어하우스에서는 지켜지지 않음 (Redshift, Snowflake, BigQuery) CT..
데이터 관련 직군 데이터 엔지니어 파이썬, 자바/스칼라 SQL, database ETL/ELT (Airflow, DBT) Spark, Hadoop 데이터 분석가 SQL, 비즈니스 도메인에 대한 지식 통계 (AB 테스트 분석) 데이터 과학자 머신러닝 SQL, 파이썬 통계 데이터 관련 직군에서 SQL 사용되는 방향 큰 데이터를 프로세싱해서 작은 데이터로 변환 주어진 문제를 답하기 위해서 데이터 분석을 하기 위한 관점 다양한 종류의 데이터 분석을 하기 위한 목적 → SQL은 필수다 ! 데이터가 아무리 커져도 데이터가 구조화만 되어 있다면 SQL은 검증된 기술이기 때문에 가장 쓰이기 좋다. 빅데이터 세상에서도 구조화된 데이터에 대해 SQL만큼 사용하기 쉬운 언어가 없다. 즉, 데이터 일을 하는 사람이면 SQL은..