AWS

AWS Glue

cloudlim 2023. 12. 29. 23:35

https://docs.aws.amazon.com/ko_kr/glue/latest/dg/components-key-concepts.html

AWS Glue는 ETL 워크플로를 생성 및 관리할 수 있는 서비스이다

 

ETL이란 데이터를 Extract(추출) → Transform(변환) → Load(적재)하는 작업을 의미한다.

 

AWS Glue는 Crawler 정의를 통해 ETL 작업을 정의한다.

이때 필수 메타데이터에 대한 정의도 포함해서 ETL 작업 정의한다

 

AWS Glue는 Script 생성을 통해 Transform 및 Load 작업을 진행한다

Script는 시간 기반 스케줄 또는 이벤트 기반으로 진행되도록 할 수 있다.

Script는 Apache Spark 환경에서 실행된다.

 

AWS Glue는 데이터 재처리를 방지하기 위해 작업 북마크를 사용한다.

작업 북마크는 데이터의 작업 상태를 나타낸다.

 

AWS Glue는 ETL 작업을 실행하는 데 사용된 작업자 수에 따라 시간당 요금이 발생한다.

Glue를 시작하거나 종료하는데 소용된 시간에 대해선 과금하지 않는다

작업자란 데이터 처리 단위(DPU)를 의미한다.

택시 리터기 생각하면 될 것 같다. 택시는 거리에 따라 금액이 달라지지만, 시간대에 따라 거리당 금액이 달라진다.

마찬가지로 Glue도 ETL에 소요된 시간만큼 비용이 발생하지만 ETL에서의 데이터 처리하는 단위가 클수록 시간당 요금이 커지는 구조라 생각하면 되지 않을까 싶다.

 


출처

 

AWS Glue 개념 - AWS Glue

AWS Glue에 있는 테이블과 데이터베이스는 AWS Glue Data Catalog의 객체입니다. 이 객체들은 메타데이터를 포함하지만 데이터 스토어의 데이터는 포함하지 않습니다.

docs.aws.amazon.com