Cloudera Sandbox HDP for Daocker 설치 과정 정리, 결론은 안됨 😭
2023. 5. 29. 20:45
데이터 엔지니어링/Hadoop
유데미에서 하둡 관련 강의를 듣는데 Cloudera Sandbox HDP 를 사용해서 하둡을 사용한다고 해서 설치 과정을 정리해봤다. Cloudera Sandbox HDP 설치하기 Cloudera Sandbox HDP 설치는 아래의 사이트에서 진행할 수 있다. https://www.cloudera.com/downloads/hortonworks-sandbox/hdp.html Hortonworks Data Platform (HDP) on Sandbox The HDP Sandbox makes it easy to get started with Apache Hadoop, Apache Spark, Apache Hive, Apache HBase, Druid and Data Analytics Studio (DAS). ..
HDFS 블록(Block) 이해하기
2023. 3. 29. 16:13
데이터 엔지니어링/Hadoop
블록(Block) 이란 일반적으로 물리적인 디스크는 블록 크기 란 개념이 있다. 블록 크기 는 한 번에 읽고 쓸 수 있는 데이터의 최대량이다. 보통 파일 시스템의 블록 크기는 수 킬로바이트이고 디스크 블록의 크기는 기본적으로 512 바이트이다. HDFS Block HDFS 의 블록은 기본적으로 128MB 와 같이 매우 큰 단위이다. HDFS 의 파일은 단일 디스크를 위한 파일시스템처럼 특정 블록 크기의 청크로 쪼개지고 각 청크는 독립적으로 저장된다. 단일 디스크를 위한 파일시스템은 디스크 블록 크기보다 작은 데이터라도 한 블록 전체를 점유하지만 HDFS 파일은 블록 크기보다 작은 데이터일 경우 전체 블록 크기에 대한 하는 하위 디스크를 모두 점유하지 않는다. HDFS 블록이 큰 이유 HDFS 블록이 디스..
HDFS HA 구성 이해하기(2)
2023. 3. 29. 16:03
데이터 엔지니어링/Hadoop
이전 포스팅에 이어 계속해서 정리해보았다. Apache Hadoop 3.3.5 – HDFS High Availability
HDFS HA 구성 이해하기(1)
2023. 3. 29. 15:46
데이터 엔지니어링/Hadoop
아래의 문서를 참고해서 정리해봤다. 이 문서는 하둡 3.3.5 버전 을 기준으로 작성되어있다. 영어로 작성되어있어 공부할겸 열심히 해석해가며 정리해보았다. Apache Hadoop 3.3.5 – HDFS High Availability
하둡 에코 시스템(Hadoop Eco System) 에 대해서
2023. 2. 5. 17:07
데이터 엔지니어링/Hadoop
하둡 에코 시스템에 대해서 공부한 내용을 정리해보려고 한다. 하둡 에코 시스템(Hadoop Eco System) 이란 기본적으로 하둡은 HDFS 와 MapReduce, YARN 으로 구성되어있다. 하지만 그 외의 다양한 서브 프로젝트들이 많이 있다. 하둡 에코 시스템은 이러한 서브 프로젝트들의 모임이라고 생각하면 된다. 하둡 에코 시스템에 대한 설명으로 가장 많이 보이는 사진이 있다. 사진을 보면 다음과 같은 에코 시스템이 있는 것을 확인할 수 있었다. 위의 사진에 나오는 사진에서 보이는 여러 서브 프로젝트들이 무엇이고 어떻게 사용되는지에 대해서 정리해보려고 한다. Flume 대용량의 로그를 수집할 수 있도록 여러가지 기능을 제공하는 프로그램이다. Flume 말고도 chukwa, scribe, fleun..
HDFS(Hadoop Distributed File System) 이해하기
2023. 2. 5. 15:26
데이터 엔지니어링/Hadoop
HDFS 에 대해서 찾아보며 공부한 내용을 정리해보려고 한다. HDFS(Hadoop Distributed File System) 옛날에는 한 대의 컴퓨터에 많은 데이터를 저장했고 큰 작업들을 수행했다. 하지만 데이터의 양이 점점 많아지면서 한 대의 컴퓨터에서 처리하기에는 필요한 비용이 기하급수적으로 늘었다고 한다. 그래서 구글에서 저사양의 컴퓨터를 여러 대 모아 한대의 컴퓨터처럼 동작하는 모델을 설계했고 바로 그 모델이 GFS(Google File System) 이라고 한다. HDFS 는 GFS 의 모델을 바탕으로 설계되었다고 한다. HDFS 의 특징으로 저장된 파일은 데이터 무결성으로 수정이 불가능하다. HDFS 는 한번 쓰고 여러번 읽는 목적에서 설계되었다고 한다. 읽기 중심의 파일시스템이라고 생각할..
하둡(Hadoop) 에 대해서
2023. 2. 5. 15:10
데이터 엔지니어링/Hadoop
하둡(Hadoop) 이란? 하둡 에코 시스템에 대해서 이해하기 전에 하둡이 뭔지부터 알아야 한다. 하둡은 "대량의 데이터를 분산 처리하고 저장하기 위한 플랫폼" 이라고 말한다. 하둡 아래와 같이 분산 파일 시스템이라고 하는 HDFS(Hadoop Distributed File System) 과 분산 데이터 처리를 해주는 MapReduce(MR) 으로 구성되어있다. 추가로 하둡 2.0 버전부터는 YARN(Yet Another Resource Negotiator) 이라는 것을 통해 자원을 관리한다고 한다. 여기서 나오는 3 가지 요소를 시작으로 하둡에 대해서 이해하면 좋을 것 같다. HDFS(Hadoop Distributed File System) MapReduce(MR) YARN(Yet Another Res..