빅데이터 처리시간 감소와 저장 효율성이 향상을 위한 맵리듀스 기반 빅데이터 처리 기법 구현
Implement of MapReduce-based Big Data Processing Scheme for Reducing Big Data Processing Delay Time and Store Data
맵리듀스는 하둡의 필수 핵심 기술로 하둡 분산 파일 시스템을 기반으로 빅데이터를 처리하는 가장 보편화되어 사용되고 있다. 그러나 기존 맵리듀스 기반 빅데이터 처리 기법은 하둡 분산 파일 시스템에 정해진 블록의 크기대로 파일 나눠 저장되는 특징으로 인해 인프라 자원의 낭비가 극심하다. 이에 본 논문에서는 효율적인 맵리듀스 기반 빅데이터 처리 기법을 제안한다. 제안하는 기법은 처리할 데이터를 사전에 맵리듀스에서 처리하기 적합한 데이터 형태로 변환 및 압축하여 빅데이터 인프라 환경의 저장 효율성을 증가시킨다. 또한 제안하는 기법은 저장 효율성을 중점으로 구현했을 때 발생할 수 있는 데이터 처리 시간의 지연 문제를 해결한다.
영어
MapReduce, the Hadoop's essential core technology, is most commonly used to process big data based on the Hadoop distributed file system. However, the existing MapReduce-based big data processing techniques have a feature of dividing and storing files in blocks predefined in the Hadoop distributed file system, thus wasting huge infrastructure resources. Therefore, in this paper, we propose an efficient MapReduce-based big data processing scheme. The proposed method enhances the storage efficiency of a big data infrastructure environment by converting and compressing the data to be processed into a data format in advance suitable for processing by MapReduce. In addition, the proposed method solves the problem of the data processing time delay arising from when implementing with focus on the storage efficiency.
목차
요약 Abstract 1. 서론 2. 관련연구 2.1 맵리듀스 2.2 맵리듀스 기반 빅데이터 처리 기법 2.3 요구사항 분석 3. 제안하는 빅데이터 처리 기법 3.1 빅데이터 변환 단계 3.2 빅데이터 재생성 단계 4. 성능평가 4.1 데이터 저장 용량 효율성 분석 4.2 빅데이터 처리 시간 분석 5. 결론 REFERENCES
저자
이협건 [ Hyeopgeon Lee | 한국폴리텍대학 서울강서캠퍼스 데이터분석과 교수 ]
Corresponding author
김영운 [ Young-Woon Kim | 한국폴리텍대학 서울강서캠퍼스 데이터분석과 교수 ]