AWS Glue 가 무엇인지에 대해서 간단하게 알아봤다면
이번에는 AWS Glue 가 어떻게 구성되어 있고 어떻게 동작하는지에 대해서 정리해보려고 한다.
AWS 에서 AWS Glue 의 아키텍처를 간단한 다이어그램을 통해 이해하기 쉽게 설명하고 있다. (그림을 너무 대충..)
AWS 에서 예를 들어준 다이어그램에 대해서 정리해봤다.
AWS Glue 는 데이터 스토어의 데이터를 크롤러를 통해 메타데이터를 가져와 데이터 카탈로그에 저장한다.
또는 데이터 카탈로그의 객체인 연결(Connection) 에 데이터 스토어의 연결 정보를 객체로 저장해놓고
크롤러를 통해 데이터 카탈로그에 저장할 수 있다.
이렇게 2가지 방법을 통해 데이터 카탈로그에 메타데이터를 저장할 수 있다.
Data Store → Crawler → Data Catalog(Metadata)
Data Store Connect Info → Connection (Data Catalog Object) → Crawler → Data Catalog
데이터를 저장할 때 데이터 카탈로그에 데이터베이스를 생성하고 데이터베이스 내의 테이블을 생성하게 된다.
데이터 카탈로그의 데이터베이스 내 메타데이터가 저장된 테이블을 통해 ETL 작업(Job)을 수행하게 된다.
물론 Data Catalog 의 테이블 뿐만 아니라 S3, Redshift 등 다른 데이터 스토어를 데이터 소스로 가져올 수 있다.
데이터 타겟도 마찬가지로 Data Catalog 뿐만 아니라 다른 서비스나 플랫폼을 데이터 타겟으로 지정할 수 있다.
Data Source(Data Catalog Table, etc) → Transform (Job) → Data Target(Data Catalog Table, etc)
이렇게 ETL 작업을 거쳐 데이터를 저장하게 된다.
그리고 스케줄러나 이벤트와 같은 트리거를 통해 ETL 작업을 관리할 수 있다.
AWS Glue 설명서에도 잘 나와있지만 내가 알고 있는 내용을 바탕으로 정리해봤다.
https://docs.aws.amazon.com/ko_kr/glue/latest/dg/components-key-concepts.html
이렇게 설명서를 통해 이해하는 것도 좋지만 어떻게 구성되어있고 어떤 과정을 거치는 지에 대해서는
직접 사용해보면서 익히는 게 훨씬 이해가 잘되고 도움이 많이 된다고 생각한다.
'Cloud > AWS' 카테고리의 다른 글
aws cli error - AttributeError: module 'lib' has no attribute 'X509_V_ERR_UNABLE_TO_GET_ISSUER_CERT' (0) | 2023.11.25 |
---|---|
AWS EC2 인스턴스 유형 t2 와 t3 비교하기 (t2 vs t3) (1) | 2023.09.03 |
AWS Glue 용어 정리 (0) | 2022.05.29 |
AWS Glue 개념 정리 (0) | 2022.05.29 |