article thumbnail image
Published 2022. 5. 29. 18:19
728x90
반응형

AWS Glue 가 무엇인지에 대해서 간단하게 알아봤다면
이번에는 AWS Glue 가 어떻게 구성되어 있고 어떻게 동작하는지에 대해서 정리해보려고 한다.

AWS 에서 AWS Glue 의 아키텍처를 간단한 다이어그램을 통해 이해하기 쉽게 설명하고 있다. (그림을 너무 대충..)

AWS 에서 예를 들어준 다이어그램에 대해서 정리해봤다.

AWS Glue 는 데이터 스토어의 데이터를 크롤러를 통해 메타데이터를 가져와 데이터 카탈로그에 저장한다.
또는 데이터 카탈로그의 객체인 연결(Connection) 에 데이터 스토어의 연결 정보를 객체로 저장해놓고
크롤러를 통해 데이터 카탈로그에 저장할 수 있다.
이렇게 2가지 방법을 통해 데이터 카탈로그에 메타데이터를 저장할 수 있다.

 

Data Store → Crawler → Data Catalog(Metadata)

 

Data Store Connect Info → Connection (Data Catalog Object) → Crawler → Data Catalog

 

데이터를 저장할 때 데이터 카탈로그에 데이터베이스를 생성하고 데이터베이스 내의 테이블을 생성하게 된다.

데이터 카탈로그의 데이터베이스 내 메타데이터가 저장된 테이블을 통해 ETL 작업(Job)을 수행하게 된다.
물론 Data Catalog 의 테이블 뿐만 아니라 S3, Redshift 등 다른 데이터 스토어를 데이터 소스로 가져올 수 있다.
데이터 타겟도 마찬가지로 Data Catalog 뿐만 아니라 다른 서비스나 플랫폼을 데이터 타겟으로 지정할 수 있다.

 

Data Source(Data Catalog Table, etc) → Transform (Job) → Data Target(Data Catalog Table, etc)

 

이렇게 ETL 작업을 거쳐 데이터를 저장하게 된다.

그리고 스케줄러나 이벤트와 같은 트리거를 통해 ETL 작업을 관리할 수 있다.

 

AWS Glue 설명서에도 잘 나와있지만 내가 알고 있는 내용을 바탕으로 정리해봤다.

https://docs.aws.amazon.com/ko_kr/glue/latest/dg/components-key-concepts.html

 

AWS Glue 개념 - AWS Glue

AWS Glue에 있는 테이블과 데이터베이스는 AWS Glue Data Catalog의 객체입니다. 이 객체들은 메타데이터를 포함하지만 데이터 스토어의 데이터는 포함하지 않습니다.

docs.aws.amazon.com

 

이렇게 설명서를 통해 이해하는 것도 좋지만 어떻게 구성되어있고 어떤 과정을 거치는 지에 대해서는
직접 사용해보면서 익히는 게 훨씬 이해가 잘되고 도움이 많이 된다고 생각한다.

728x90
반응형
복사했습니다!