HDFS 블록(Block) 이해하기
2023. 3. 29. 16:13
데이터 엔지니어링/Hadoop
블록(Block) 이란 일반적으로 물리적인 디스크는 블록 크기 란 개념이 있다. 블록 크기 는 한 번에 읽고 쓸 수 있는 데이터의 최대량이다. 보통 파일 시스템의 블록 크기는 수 킬로바이트이고 디스크 블록의 크기는 기본적으로 512 바이트이다. HDFS Block HDFS 의 블록은 기본적으로 128MB 와 같이 매우 큰 단위이다. HDFS 의 파일은 단일 디스크를 위한 파일시스템처럼 특정 블록 크기의 청크로 쪼개지고 각 청크는 독립적으로 저장된다. 단일 디스크를 위한 파일시스템은 디스크 블록 크기보다 작은 데이터라도 한 블록 전체를 점유하지만 HDFS 파일은 블록 크기보다 작은 데이터일 경우 전체 블록 크기에 대한 하는 하위 디스크를 모두 점유하지 않는다. HDFS 블록이 큰 이유 HDFS 블록이 디스..
하둡(Hadoop) 에 대해서
2023. 2. 5. 15:10
데이터 엔지니어링/Hadoop
하둡(Hadoop) 이란? 하둡 에코 시스템에 대해서 이해하기 전에 하둡이 뭔지부터 알아야 한다. 하둡은 "대량의 데이터를 분산 처리하고 저장하기 위한 플랫폼" 이라고 말한다. 하둡 아래와 같이 분산 파일 시스템이라고 하는 HDFS(Hadoop Distributed File System) 과 분산 데이터 처리를 해주는 MapReduce(MR) 으로 구성되어있다. 추가로 하둡 2.0 버전부터는 YARN(Yet Another Resource Negotiator) 이라는 것을 통해 자원을 관리한다고 한다. 여기서 나오는 3 가지 요소를 시작으로 하둡에 대해서 이해하면 좋을 것 같다. HDFS(Hadoop Distributed File System) MapReduce(MR) YARN(Yet Another Res..