Published 2022. 11. 5. 16:32

에이블리코퍼레이션 - 데이터 엔지니어

728x90

글을 적기에 앞 서,
이 글은 저의 생각에 대해 정리한 글입니다.
언제든지 피드백해주시면 감사합니다 😆

에이블리코퍼레이션 에서는 어떤 데이터 엔지니어를 원할까?

주요 업무 분석

주요업무
• 서비스 DB와 유저 기기에서 발생하는 여러 데이터가 잘 흐르도록 파이프라인을 설계하고 개발하는 업무를 담당해요.
• 처리량 증대를 위해 파이프라인을 지속적으로 개선하고, 안정적인 데이터 플랫폼을 구축하는 업무를 담당해요.
• 데이터 플랫폼 설계부터 개발, 운영까지 모든 과정에 참여해요.

주요 업무에 대해서 상세하게 적혀있다기보다는 크게 업무를 분류해서 적어놓은 듯해 보였다.
그래도 하나씩 보면서 분석해봤다.

1. 서비스 DB 와 유저 기기에서 발생하는 여러 데이터가 잘 흐르도록 파이프라인을 설계하고 개발하는 업무를 담당

서비스 DB 라고 하면 말 그대로 사용자가 에이블리 서비스를 사용하면서 발생하는 데이터들을 저장해놓은 DB 를 말할 것이고
유저 기기에서 발생하는 여러 데이터라고 한다면 언제, 어디에서 어떤 기기를 통해 접속했는 지에 대한 데이터를 말하는 것 같다.

이러한 데이터들이 잘 흐르도록 파이프라인을 설계한다는 말은 위에서 말한 데이터 중에서
어떤 데이터를 가져와서 어떻게 가공해서 저장하고 사용할지에 대한 설계를 하는 것으로 보인다.

예를 들어, 사용자의 기기 접속 정보라고 한다면 어디에서 접속했고 어떤 기기를 통해 접속했는지에 대한 데이터를 가져와
지역별 또는 기기별 데이터 그리고 어떤 시간대에 접속했는지에 대한 데이터를 필요로 해 가공해서 저장하는 과정을 설계하는 게 아닐까?

파이프라인 설계를 하고나서 필요한 부분에 대해서 개발을 하는 것 같다.

이 부분에서 중요한 부분은 파이프라인을 설계하고 개발하기 위해서 많은 어플리케이션을 사용해본 경험이 필요할 것 같고
어떻게 파이프라인을 구성해봤는지가 중요할 것 같다.

에이블리코퍼레이션에서 주로 사용하는 DB 가 무엇이고 그 DB 에서 어떻게 데이터를 가져올 수 있고
데이터를 가져와서 어떤 애플리케이션을 통해 가공해서 적재하고 적재된 데이터를 어떻게 사용할지에 대한 경험이 필요해보인다.

2. 처리량 증대를 위해 파이프라인을 지속적으로 개선하고 안정적인 데이터 플랫폼을 구축하는 업무를 담당

처리량 증대 라는 말은 현재 에이블리 서비스를 통해 많은 데이터가 쌓이고 있고
보다 효율적으로 처리하고 가공해서 적재할 수 있는 방안에 대한 생각을 많이 해야겠다는 생각이 들었다.

데이터가 많은 만큼 가져와서 가공하고 적재하는 과정에 있어 오랜 시간이 걸릴 것이고 부하도 많이 발생할 것이라고 생각한다.
이런 부분에 대해서 어떻게 개선할 수 있을지에 대해서 쿼리 개선이나 파이프라인 수정 등 많은 고민이 필요해보였다.

그리고 안정적인 데이터 플랫폼을 구축하는 부분이 정말 중요한 부분이라고 생각했다.
데이터 플랫폼에 이슈가 많아 데이터가 정상적으로 적재되지 않고 그로 인해 영향받는 부분들이 생기게 되면 정말 머리가 아파진다.
그렇기에 안정적인 데이터 플랫폼을 구축해야만 서비스 뿐만 아니라 그 이후의 비즈니스나 다른 부분에서도 안정적으로 운영이 되지 않을까 생각한다.

3. 데이터 플랫폼 설계부터 개발, 운영까지 모든 과정에 참여

모든 과정에 참여할 수 있다는 건 정말 많은 경험이 필요하고 또 많은 경험이 될 것 같다는 생각이 들었다.
그만큼 많은 것을 경험해봐야하고 많이 알아야하고 서비스에 대해서도 많은 이해가 필요할 것 같다.

데이터를 다루는 일이 정말 예민하기도 하고 거짓없이 솔직하기 때문에 많이 생각하고 고민해야하는 것 같다.

자격 요건 확인

자격요건
• 데이터 엔지니어 관련 업무 경력이 5년 이상이거나, 그에 준하는 역량을 갖고 계신 분을 찾고 있어요.
• Kafka, Spark(Hadoop) 등 분산 처리 프레임워크 활용에 능숙한 분을 찾고 있어요.
• 데이터 플랫폼 설계부터 운영까지 A to Z를 주도적으로 개발해본 경험이 있는 분을 찾고 있어요.
• 대용량 분산 처리를 경험해 보신 분을 찾고 있어요.

자격 요건으로는 데이터 엔지니어 관련 업무 경력이 5년 이상이다.
앞서 봤던 주요 업무를 보더라도 데이터 플랫폼 설계, 개발, 운영에 참여해야하는 만큼 많은 경험이 필요해보였다.
그래서 아마 5년 이상의 경력이 필요하지 않을까? 생각이 들었다.

Kafka, Spark 등 분산처리 프레임워크 활용에 능숙한 사람
카프카를 사용한다는 건 실시간 데이터의 분산 처리가 필요해보이고
스파크를 사용한다는 건 대용량 처리를 분산 처리 하기위해서 필요해보인다.

데이터 플랫폼 설계부터 운영까지 A to Z 를 주도적으로 개발해본 경험...!
이래서 5년 이상의 경력이 필요한 거구나...
그런데 정말 이렇게 하나부터 열까지 모든 과정을 주도적으로 개발해보고 운영해본 경험이 흔치 않을 것 같다.

대용량 분산 처리를 경험해본 경험!
위에서 말한 것처럼 주로 카프카나 스파크를 사용해서 분산처리를 해본 경험을 필요로 하는 것 같다.

자격 요견을 보니 에이블리코퍼레이션에서는 데이터 플랫폼 관련해서 모든 업무를 다 할 수 있는 사람을 원하는 것 같다.
데이터 플랫폼의 모든 과정을 경험해본 사람, 다 할 수 있는 사람?
그런 사람을 원하는 게 아닐까?

우대 사항 확인

우대사항
• Presto, SparkSQL, Impala, Hive(Tez) 등의 분산 쿼리 엔진을 경험해보신 분이면 좋아요.
• 데이터 관련 오픈소스 공헌 및 활동하신 경험이 있는 분이면 좋아요.
• 머신러닝 데이터/서비스 파이프라인 구축 경험이 있으신 분이면 좋아요.

자격 요건은 위와 같지만 우대 사항을 보면 보다 어떤 사람을 필요로 하는지 알 수 있다.

분산 쿼리 엔진의 경험을 필요로 하는 것 같다.
Presto, SparkSQL, Impala, Hive(Tez) 를 보니 하둡 에코 시스템에서 사용하고 있는 쿼리 엔진인 것 같아 친숙해보였다.

데이터 관련 오픈소스 공험 및 활동, 이런 경험은 어디서 어떻게 할 수 있을 지 찾아봐야겠다.

머신러닝 데이터/서비스 파이프라인 구축 경험
머신 러닝이라... 이 부분은 데이터를 보다 활용하고 싶어서 적어놓은게 아닐까 생각한다.

기술 스택

기술스택
•Python, Java, Scala
•Hadoop, Spark, Kafka, Kafka Connect, Debezium, Hudi, Airflow, DataHub
•Redash
•AWS
- EMR, MSK, Athena, EKS
- S3
•GCP
- BigQuery
- GCS

사용하는 기술들을 보니 정확하지는 않지만 대략적으로 어떻게 사용하고 있는지에 대해서는 알 수 있었다.

주 언어로는 Python, Java, Scala 를 사용하고 있다. 데이터를 다루는 사람들에게는 친숙한 언어인 것 같다.

AWS EMR 을 통해서 Hadoop Cluster 를 구축해서 사용하고 있을 것 같고
아마 Hadoop 에코 시스템의 Util 어플리케이션들은 EKS 로 구축해서 사용하고 있지 않을까?

데이터를 가공하고 적재하는 과정에서 Spark 와 Kafka 를 사용하고 있고
AWS MSK 에서 Kafka 를 사용해 스트리밍 데이터를 처리하고
S3에 데이터를 가공 후 적재해서 Athena 를 통해서 확인하고

Airflow 를 통해서 워크플로우를 생성하고 스케줄링을 통해 배치 작업을 수행하고 있는 것 같고
적재된 데이터를 Redash 를 통해 데이터 시각화를 해서 비즈니스에서 사용하고 있고
AWS EKS 와 GCP GCS 를 통해서 서비스를 구축해서 운영하고 있는 것 같다.

에이블리코퍼레이션이 원하는 데이터 엔지니어

지난 번에 티빙 의 데이터 엔지니어에 대해서 분석을 했었는데
나는 오히려 에이블리코퍼레이션의 업무가 더 한눈에 들어왔고 익숙하게 다가왔던 것 같다.

위에서 말한 자격들과 업무에 대해서 살펴보니 5년 이상의 경력을 원하는 게 어떻게 보면 당연하다는 생각이 들었다.
그 많은 업무들을 다 해본 사람은 많이 없지 않을까 하는 생각도 들었고 에이블리코퍼레이션에서 일을 하게되면 정말 많은 일을 하겠구나?
라는 생각이 들었다 ㅋㅋ

마지막으로, 나도 잘 아는 것은 아니라 내가 아는 것만큼 적어보았는데 아직 알아야할 것들도 많을 것 같고
에이블리코퍼레이션에서 원하는 데이터 엔지니어의 역량을 따라가기에는 많이 부족하다는 생각이 들었던 것 같다.

그런데도 모든 과정에 참여해서 주도적으로 해볼 수 있다는 것은 정말 좋은 경험이 될 수 있다? 라는 생각이 들었다.