HDFS HA 구성 이해하기(2)
2023. 3. 29. 16:03
데이터 엔지니어링/Hadoop
이전 포스팅에 이어 계속해서 정리해보았다. Apache Hadoop 3.3.5 – HDFS High Availability
하둡 에코 시스템(Hadoop Eco System) 에 대해서
2023. 2. 5. 17:07
데이터 엔지니어링/Hadoop
하둡 에코 시스템에 대해서 공부한 내용을 정리해보려고 한다. 하둡 에코 시스템(Hadoop Eco System) 이란 기본적으로 하둡은 HDFS 와 MapReduce, YARN 으로 구성되어있다. 하지만 그 외의 다양한 서브 프로젝트들이 많이 있다. 하둡 에코 시스템은 이러한 서브 프로젝트들의 모임이라고 생각하면 된다. 하둡 에코 시스템에 대한 설명으로 가장 많이 보이는 사진이 있다. 사진을 보면 다음과 같은 에코 시스템이 있는 것을 확인할 수 있었다. 위의 사진에 나오는 사진에서 보이는 여러 서브 프로젝트들이 무엇이고 어떻게 사용되는지에 대해서 정리해보려고 한다. Flume 대용량의 로그를 수집할 수 있도록 여러가지 기능을 제공하는 프로그램이다. Flume 말고도 chukwa, scribe, fleun..
HDFS(Hadoop Distributed File System) 이해하기
2023. 2. 5. 15:26
데이터 엔지니어링/Hadoop
HDFS 에 대해서 찾아보며 공부한 내용을 정리해보려고 한다. HDFS(Hadoop Distributed File System) 옛날에는 한 대의 컴퓨터에 많은 데이터를 저장했고 큰 작업들을 수행했다. 하지만 데이터의 양이 점점 많아지면서 한 대의 컴퓨터에서 처리하기에는 필요한 비용이 기하급수적으로 늘었다고 한다. 그래서 구글에서 저사양의 컴퓨터를 여러 대 모아 한대의 컴퓨터처럼 동작하는 모델을 설계했고 바로 그 모델이 GFS(Google File System) 이라고 한다. HDFS 는 GFS 의 모델을 바탕으로 설계되었다고 한다. HDFS 의 특징으로 저장된 파일은 데이터 무결성으로 수정이 불가능하다. HDFS 는 한번 쓰고 여러번 읽는 목적에서 설계되었다고 한다. 읽기 중심의 파일시스템이라고 생각할..
하둡(Hadoop) 에 대해서
2023. 2. 5. 15:10
데이터 엔지니어링/Hadoop
하둡(Hadoop) 이란? 하둡 에코 시스템에 대해서 이해하기 전에 하둡이 뭔지부터 알아야 한다. 하둡은 "대량의 데이터를 분산 처리하고 저장하기 위한 플랫폼" 이라고 말한다. 하둡 아래와 같이 분산 파일 시스템이라고 하는 HDFS(Hadoop Distributed File System) 과 분산 데이터 처리를 해주는 MapReduce(MR) 으로 구성되어있다. 추가로 하둡 2.0 버전부터는 YARN(Yet Another Resource Negotiator) 이라는 것을 통해 자원을 관리한다고 한다. 여기서 나오는 3 가지 요소를 시작으로 하둡에 대해서 이해하면 좋을 것 같다. HDFS(Hadoop Distributed File System) MapReduce(MR) YARN(Yet Another Res..