Earticle

현재 위치 Home

논문

Hadoop 프레임워크 상의 효율적인 다중 구조 데이터 처리 기법
An Efficient Technique for Managing Multi-Structured Data on a Hadoop-based Framework

첫 페이지 보기
  • 발행기관
    한국차세대컴퓨팅학회 바로가기
  • 간행물
    한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
  • 통권
    Vol.11 No.2 (2015.04)바로가기
  • 페이지
    pp.66-78
  • 저자
    김종익, 최동훈
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A246108

원문정보

초록

영어
To support multi-structured data in big data processing environments, distributed data processing frameworks often make use of a column-oriented storage technique. While column-oriented storage techniques efficiently handle analytic tasks such as selection and/or aggregation on a sparse column, they are not efficient in reconstructing records. In this paper, we propose a clustering technique that partitions data into groups of records having similar structures so as to reduce the number of columns in each group. We can not only reduce the search space of a query but also improve the performance of reconstructing a record by partitioning data. Through experiments, we show that the proposed technique improves the performance of query processing on multi-structured data.
한국어
빅데이터 처리 환경에서 다중 구조의 데이터 분석 작업을 효율적으로 처리하기 위해서 하둡 기반의 다양한 컬럼 기 반의 저장 기법들이 활용되고 있다. 컬럼 기반의 저장 기법은 희소 속성들에 대한 선택, 집계 연산에 매우 효율적이 지만 레코드를 재구성하는데 많은 비용을 요구한다. 본 논문에서는 다양한 구조의 데이터를 구조가 유사한 레코드들 로 클러스터링함으로써, 컬럼 기반의 저장방식을 사용하는 분산 처리 환경에서 질의 처리의 속도를 향상시키는 기법 을 제안하고 실험을 통해 제안하는 방법이 다중 데이터에 대한 질의 처리 성능 개선에 효율적임을 입증한다.

목차

요약
 Abstract
 1. 서론
 2. 관련 연구
 3. 다중 구조 데이터 관리 기법
  3.1 다중 구조 데이터의 저장 및 질의 처리
  3.2 레코드의 유사도 측정 및 다중 구조 데이터 분할
 4. 실험
  4.1 실험 환경 및 실험 데이터
  4.2 질의 처리 성능 비교
 5. 결론
 사사
 참고문헌

키워드

다중 구조 데이터 빅 데이터 클러스터링 유사도 하둡 multi-structured data big data clustering similarity Hadoop

저자

  • 김종익 [ Jongik Kim | 전북대학교 컴퓨터공학부 ]
  • 최동훈 [ Dong-Hoon Choi | 한국과학기술정보연구원 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
  • 설립연도
    2005
  • 분야
    공학>컴퓨터학
  • 소개
    본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

  • 간행물명
    한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
  • 간기
    격월간
  • pISSN
    1975-681X
  • 수록기간
    2005~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.11 No.2

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장