탠덤 질량 스펙트럼에서 추출된 갭 태그를 단백질 데이터베이스에서 검색하는 효율적인 알고리즘

김현우; 박희진

216.73.216.134

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

논문

탠덤 질량 스펙트럼에서 추출된 갭 태그를 단백질 데이터베이스에서 검색하는 효율적인 알고리즘
An Efficient Algorithm for Searching Gapped Tag from Tandem Mass Spectrum in Protein Database

발행기관

한국차세대컴퓨팅학회 바로가기
간행물

한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
통권

Vol.12 No.3 (2016.06)바로가기
페이지

pp.95-104
저자

김현우, 박희진
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A278517

원문정보

초록

영어: Proteomics is the study of proteins, particularly expression, structures, functions and interactions of proteins. Protein identification searches protein sequence database for given amino acid sequences. Recently, MS-GappedDictionary proposed to search the databases using gapped tags. Using this method, more candidate amino-acid sequences are found than previous method. For searching gapped tags, it takes O(n) time without database indexing and O(p) time with indexing where n is the size of database and p is the average number of gapped tags. For UniProt protein sequence database which is widely-used in general, n = 35,856,033 and p = 719, so it is really necessary to index the database to reduce time. In previous works, a gap size is limited to 500Da because it uses a lot of memory to index the database. However, the size of a gap is actually more than 500Da. We propose an efficient algorithm which searches gapped tags whose size more than 500Da in O(p) time. Our method uses the same memory, but search time is 652 and 98 times faster than original method from 501Da to 600Da and to 650Da, respectively.

한국어: 단백질 동정(Protein identification)은 단백질의 기능을 분석하고 성질을 파악하기 위해 널리 사용되는 방법이며단백질을 동정하기 위해서는 아미노산 서열을 이용하여 단백질 서열 데이터베이스를 검색하는 과정이 필요하다. 최근에 갭태그를 사용하여 데이터 베이스를 검색하는 방법이 MS-GappedDictionary에서 제안되었으며 이 방법을 이용하면 기존의 방법보다 좀 더 많은 수의 후보 아미노산 서열을 검색할 수 있다. 이 방법은 데이터베이스를 인덱싱하지 않을 경우 갭태그를 검색하는데 O(n) (n은 데이터베이스의 크기) 시간이 걸리고 인덱싱을 이용하면 O(p) (p 는 갭태그의 평균개수) 시간이 필요하다. 실제로 널리 사용되는 단백질 서열 데이터베이스인 UniProt의 경우 n = 35,856,033이고 p = 719이므로 인덱싱을 이용하는 것이 필수적이다. 기존에는 인덱싱이 메모리를 많이 사용하기때문에 갭의 크기를 500Da 이하로 제한했다. 하지만 실제로 갭의 크기가 500Da보다 큰 것이 가능하다는 것을 고려하면 500Da은 제한적이다. 본 논문에서는 500Da까지만 인덱싱을 하면서도 500Da보다 큰 갭을 포함한 갭태그를O(p)에 비례하는 시간에 데이터베이스에서 검색하는 방법을 제안한다. 이 방법을 사용하면 501Da에서 600Da의갭 태그를 평균 652배 빠르게 데이터베이스를 검색할 수 있고 650Da까지는 98배 빠르게 검색할 수 있다.

요약
Abstract
1. 서론
2. 연구 내용
  2.1 [G1]이 아미노산 한 개일 경우
  2.2 [G1]이 아미노산 두 개일 경우
  2.3 [G1]이 아미노산 세 개 이상일 경우
  2.4 태그 조합 시간 복잡도 축소
3. 연구 결과
  3.1 데이터베이스 인덱싱
  3.2 갭 태그를 이용한 데이터베이스 검색
4. 결론
참고문헌

키워드

질량 스펙트럼 갭 태그 프로테오믹스 단백질 동정 펩티드 동정 Mass Sepctrum Gapped Tag Proteomics Protein Identification Pepitde Identification

저자

김현우 [ Hyunwoo Kim | 한양대학교 전자컴퓨터통신공학과 ]
박희진 [ Heejin Park | 한양대학교 컴퓨터공학부 ] Corresponding author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
설립연도
2005
분야
공학>컴퓨터학
소개
본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

간행물명

한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
간기
격월간
pISSN
1975-681X
수록기간
2005~2026
등재여부
KCI 등재
십진분류
KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.12 No.3

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

탠덤 질량 스펙트럼에서 추출된 갭 태그를 단백질 데이터베이스에서 검색하는 효율적인 알고리즘
An Efficient Algorithm for Searching Gapped Tag from Tandem Mass Spectrum in Protein Database

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.12 No.3

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

탠덤 질량 스펙트럼에서 추출된 갭 태그를 단백질 데이터베이스에서 검색하는 효율적인 알고리즘 An Efficient Algorithm for Searching Gapped Tag from Tandem Mass Spectrum in Protein Database

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.12 No.3

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

탠덤 질량 스펙트럼에서 추출된 갭 태그를 단백질 데이터베이스에서 검색하는 효율적인 알고리즘
An Efficient Algorithm for Searching Gapped Tag from Tandem Mass Spectrum in Protein Database