Earticle

현재 위치 Home

논문

유전체 데이터를 위한 효율적인 데이터 관리자의 구현 및 성능분석
Implementation and Performance Analysis of Efficient Data Manager for Genome Data

첫 페이지 보기
  • 발행기관
    한국차세대컴퓨팅학회 바로가기
  • 간행물
    한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
  • 통권
    Vol.8 No.1 (2012.02)바로가기
  • 페이지
    pp.24-33
  • 저자
    송명선, 김희대, 이현조, 장재우, 엄정호, 최동훈
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A168118

원문정보

초록

영어
Recently, many studies have been done on managing and analyzing genome data because researches of the medical field have a lot of interests. Genome data analysis process has consist of two main parts, One is pre-processing which does mapping and tagging to genome data and another is post-processing which does generating mutations of genome data and analyzing mutated data. The pre-processing jab maps and tags to the combinations of whole genome sequences which are the parts of three billions of sequences in a genome data, so that the job takes too much time. However, it generates same data results if the input data is same. The post-processing job makes mutated genome data which is effected by the order of used mutation algorithms, the kinds of mutation algorithms and the number of iterations for reprocessing jobs. In this paper, we design an efficient genome data manager by considering the characteristics of genome data analysis process. First, we design a data sharing table to share genome data efficiently. Secondly, we design a provenance index tree to handle the provenances of genome data processing. Thirdly, based on the designed methods, we design algorithms for managing genome data. At last, we implement our algorithm and show its performance.
한국어
최근 의료 분야에 대한 관심이 높아짐에 따라 유전체 데이터를 관리 및 분석하는 기술에 대한 많은 연구가 수행되고 있다. 유전체 데이터 분석은 유전체 데이터의 매핑(mapping) 및 태깅(tagging)을 수행하는 전처리단계와 변이된 유전체 데이터를 생성하고 분석하는 후처리단계로 구성된다. 전처리 단계는 약 30억 개 이상의 염기 서열 조합에 대해 분석 작업을 수행하기 때문에 많은 시간이 소요된다. 그러나 입력된 데이터가 동일할 경우 동일한 결과 데이터가 생성되는 특징을 지닌다. 한편, 후처리단계에서는 각종 변이 알고리즘 종류 및 적용 순서 등에 의해, 매번 상이한 결과 데이터가 생성되는 특징을 지닌다. 이와 같은 특성을 고려하면, 효율적인 유전체 분석 데이터 공유 및 유전체 데이터 분석 과정, 즉, 유전체 데이터 유래의 검색을 지원해야한다. 따라서 본 논문에서는 유전체 데이터의 특성을 고려하여, 대용량 유전체 데이터를 위한 효율적인 데이터 관리자를 구현한다. 첫째, 원활한 데이터 공유를 위해 공유 권한 테이블을 설계한다. 둘째, 각 파이프라인의 결과 데이터 및 유사한 유전체 데이터 관리를 위해 유전체 데이터 유래 관리 기법를 설계한다. 셋째, 설계한 데이터 공유 및 유래 관리 기법을 기반으로 데이터 관리자의 주요 알고리즘을 설계한다. 마지막으로 설계된 알고리즘을 구현하여 성능평가를 수행한다.

목차

요약
 Abstract
 1. 서론
 2. 관련 연구
 3. 유전체 데이터를 위한 효율적인 데이터관리자
  3.1 유전체 데이터 분석 과정의 특성
  3.2 전체 시스템 구조
  3.3 유전체 데이터의 공유 및 유래 관리 알고리즘
 4. 성능평가
  4.1 성능평가 환경 및 고려사항
  4.2 성능평가
  4.3 성능고찰
 5. 결론
 참고문헌

키워드

유전체 데이터 웹기반 유전체 데이터 분석 서비스 유전체 데이터 관리 유전체 데이터 유래 색인 유전체 데이터 공유 Genome data Web-based genome data analysis service Genome data management Genome data provenance indexing Genome data sharing

저자

  • 송명선 [ Myoungseon Song | 전북대학교 컴퓨터공학과 ]
  • 김희대 [ Heedae Kim | 전북대학교 컴퓨터공학과 ]
  • 이현조 [ Hyunjo Lee | 전북대학교 컴퓨터공학과 ]
  • 장재우 [ Jaewoo Chang | 전북대학교 컴퓨터공학과 ]
  • 엄정호 [ Jungho Um | 한국과학기술정보연구원 ]
  • 최동훈 [ Donghoon Choi | 한국과학기술정보연구원 ]

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
  • 설립연도
    2005
  • 분야
    공학>컴퓨터학
  • 소개
    본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

  • 간행물명
    한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
  • 간기
    격월간
  • pISSN
    1975-681X
  • 수록기간
    2005~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.8 No.1

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장