하둡 용어 설명

1 분 소요

하둡(Hadoop)

하둡은 대용량 데이터를 분산처리할 수 있는 자바 기반의 오픈소스 프레임워크이다.

HDFS(Hadoop Distributed File System)

HDFS는 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템이다.

네임노드(Name Node)

HDFSd의 모든 메타데이터를 관리하고, 클라이언트가 HDFS에 저장된 파일에 접근할 수 있게 해준다.

파일 시스템 이미지(fsimage)

HDFS의 네임스페이스(디렉토리명, 파일명, 상태정보) 와 파일에 대한 블록 매핑 정보를 저장하는 파일

에디트로그(editLog)

HDFS의 메타데이터에 대한 모든 변화를 기록하는 로그파일

데이터 노드(DataNode)

HDFS에 데이터를 입력하면 입력 데이터는 128MB의 블록으로 나눠져서 여러 대의 데이터노드에 분산되어 저장된다.

보조 네임노드(SecondaryNameNode)

주기적으로 네임노드의 파일 시스템 이미지 파일을 갱신하는 역할을 수행한다.

맵리듀스(MapReduce)

맵리듀스 프로그래밍 모델은 과거부터 사용하던 알고리즘으로 맵(Map)과 리듀스(Reduce) 라는 두개의 메서드로 구성된 알고리즘이다. 맵리듀스 프레임워크는 이러한 알고리즘을 이용해 개발된 프레임워크이며, 대규모 분산 컴퓨팅 혹은 단일 컴퓨팅 환경에서 대향의 데이터를 병렬로 분석할 수 있게 한다.

맵리듀스 잡(MapReduce Job)

클라이언트가 하둡으로 실행을 요청하는 맵리듀스 프로그램은 잡(Job)이라는 하나의 작업 단위로 관리된다.

잡트래커(Job Tracker)

하둡 클러스터에 등록된 전체 잡의 스케쥴링을 관리하고 모니터링 한다.

태스트 트래커(Test Tracker)

사용자가 설정한 맵리듀스 프로그램을 실행하며, 하둡의 데이터노드에서 실행되는 데몬입니다. 이때 Map Task(맵 테스크)와 Reduce Task(리듀스 테스크)란 사용자가 설정한 Map과 Reduce프로그램이다.

입력 스플릿(Input split)

하나의 맵에서 처리해야 하는 입력 파일의 크기이다.

매퍼(Mapper)

맵리듀스 프로그래밍 모델에서 맵 메서드의 역할을 수행하는 클래스이다. 매퍼는 키와 값으로 구성된 입력 데이터를 전달받아 이 데이터를 가공하고 분류해서 새로운 데이터 목록을 생성한다.

리듀서(Reducer)

맵리듀스 프로그래밍 모델에서 리듀스 메서드의 역할을 수행하는 클래스이다. 리듀서는 맵 태스크의 출력 데이터를 입력 데이터로 전달받아 집계 연산을 수행한다.

셔플(Shuffle)

맵 태스크와 리듀스 태스크 사이의 데이터 전달 과정이다.

콤바이너(Combiner)

콤바이너 클래스는 매퍼의 출력 데이터를 입력 데이터로 전달받아 연산을 수행한다. 이러한 연산을 통해 셔플한 데이터의 크기를 줄이는 데 도움을 준다.

파티셔너(Partitioner)

맵 태스크의 출력 데이터가 어떤 리듀스 캐스크로 전달될지를 결정합니다.

Twitter Facebook Google+ LinkedIn

박원영