728x90
반응형

개요

개인적으로 공부할겸 Airflow 를 사용해서 데이터 파이프라인을 만들어보려고 한다.
어떤 데이터를 사용해볼까 생각하다 공공데이터포털 이란 곳에서 공공데이터를 제공해주고 있어 사용해보기로 했다.

https://www.data.go.kr

 

공공데이터 포털

국가에서 보유하고 있는 다양한 데이터를『공공데이터의 제공 및 이용 활성화에 관한 법률(제11956호)』에 따라 개방하여 국민들이 보다 쉽고 용이하게 공유•활용할 수 있도록 공공데이터(Datase

www.data.go.kr

 

공공데이터포털에서는 다양한 데이터 타입으로 데이터를 제공하고 있어 어떤 데이터를 다루어볼지 그리고 어떤 형식으로 데이터를 가져올지 등에 대해서 생각해봐야했다.

나는 수많은 데이터 중에서 서울교통공사_지하철혼잡도정보 라는 데이터를 가져와서 Airflow 를 사용해 데이터를 가공해서 적재하는 파이프라인을 만들어보려고 한다.

 

 

작업 환경

작업 환경으로는 다음과 같은 환경에서 진행해보려고 한다.

  • Airflow
    Airlfow 는 로컬 환경에서 파이썬 가상 환경을 생성 후 가상 환경 내에서 별도로 구축해서 사용하려고 한다.
  • 데이터
    데이터는 공공데이터포털에서 데이터를 가져와서 사용해보려고 한다.
  • DB
    DB 는 Docker 환경에서 Mysql 을 빠르게 설치해서 사용해보려고 한다.

 

Airflow 는 아래와 같이 로컬 환경에서 구축해두었다.

https://jaynamm.tistory.com/entry/airflow-설치해보기

 

Python 가상 환경에서 airflow 설치해보기

airflow db 구성 airflow 에서 사용할 DB 를 구성해준다. 아래와 같이 테이블을 생성해주고 유저를 생성하고 권한 설정을 해준다. CREATE DATABASE airflow CHARACTER SET UTF8mb3 COLLATE utf8_general_ci; CREATE USER 'airflow'

jaynamm.tistory.com

 

공공데이터포털에서 데이터를 가져오는 방법은 아래의 블로그에 설명되어있어 같은 방법으로 데이터를 가져올 수 있었다.

https://domdom.tistory.com/233

 

[API사용] 공공데이터포털 REST API 사용법 (JSON)

공공데이터포털에는 수많은 데이터들이 있죠! 이 데이터들을 쉽게 활용할 수 있는 REST API 사용법을 알려드리려 합니다. 일단 먼저 어떤 데이터를 활용할지 공공데이터포털에 들어가봅니다! https

domdom.tistory.com

 

 

목표

전반적인 목표로는 Airlfow 로컬 환경을 구축하고 공공데이터포털을 통해 데이터를 가져오는 것이다. 그리고 데이터를 가져와 스키마를 지정하고 스키마에 맞게 데이터를 쌓은 후에 데이터를 분석해서 대시보드를 만들어보는 과정까지 진행해보려고 한다. 그 이후에 다른 부분들까지 더 추가하거나 Airflow 를 로컬 환경이 아닌 Docker 환경이나 Kubernetes 환경에서 구축을 진행해볼 생각이다.

 

일단 해보는 게 중요하다고 생각해 구체적으로 계획을 만들지는 않았다. 직접 해보면서 부딪혀가며 알아가보려고 한다.

728x90
반응형
복사했습니다!