개요
개인적으로 공부할겸 Airflow 를 사용해서 데이터 파이프라인을 만들어보려고 한다.
어떤 데이터를 사용해볼까 생각하다 공공데이터포털 이란 곳에서 공공데이터를 제공해주고 있어 사용해보기로 했다.
공공데이터포털에서는 다양한 데이터 타입으로 데이터를 제공하고 있어 어떤 데이터를 다루어볼지 그리고 어떤 형식으로 데이터를 가져올지 등에 대해서 생각해봐야했다.
나는 수많은 데이터 중에서 서울교통공사_지하철혼잡도정보 라는 데이터를 가져와서 Airflow 를 사용해 데이터를 가공해서 적재하는 파이프라인을 만들어보려고 한다.
작업 환경
작업 환경으로는 다음과 같은 환경에서 진행해보려고 한다.
- Airflow
Airlfow 는 로컬 환경에서 파이썬 가상 환경을 생성 후 가상 환경 내에서 별도로 구축해서 사용하려고 한다. - 데이터
데이터는 공공데이터포털에서 데이터를 가져와서 사용해보려고 한다. - DB
DB 는 Docker 환경에서 Mysql 을 빠르게 설치해서 사용해보려고 한다.
Airflow 는 아래와 같이 로컬 환경에서 구축해두었다.
https://jaynamm.tistory.com/entry/airflow-설치해보기
공공데이터포털에서 데이터를 가져오는 방법은 아래의 블로그에 설명되어있어 같은 방법으로 데이터를 가져올 수 있었다.
https://domdom.tistory.com/233
목표
전반적인 목표로는 Airlfow 로컬 환경을 구축하고 공공데이터포털을 통해 데이터를 가져오는 것이다. 그리고 데이터를 가져와 스키마를 지정하고 스키마에 맞게 데이터를 쌓은 후에 데이터를 분석해서 대시보드를 만들어보는 과정까지 진행해보려고 한다. 그 이후에 다른 부분들까지 더 추가하거나 Airflow 를 로컬 환경이 아닌 Docker 환경이나 Kubernetes 환경에서 구축을 진행해볼 생각이다.
일단 해보는 게 중요하다고 생각해 구체적으로 계획을 만들지는 않았다. 직접 해보면서 부딪혀가며 알아가보려고 한다.
'데이터 엔지니어링 > Airflow' 카테고리의 다른 글
3. 공공데이터포털 데이터 전처리하기(2) (0) | 2023.01.02 |
---|---|
2. 공공데이터포털 데이터 전처리하기 (1) (0) | 2022.12.31 |
1. 공공데이터포털 데이터 가져오기 (0) | 2022.12.25 |
[Error] airflow.exceptions.AirflowException: The webserver is already running under PID (0) | 2022.11.18 |
Python 가상 환경에서 airflow 설치해보기 (1) | 2022.11.05 |