Earticle

현재 위치 Home

IJIBC 12-1-4

PDFindexer : Distributed PDF Indexing system using MapReduce

첫 페이지 보기
  • 발행기관
    국제인공지능학회(구 한국인터넷방송통신학회) 바로가기
  • 간행물
    International Journal of Internet, Broadcasting and Communication 바로가기
  • 통권
    Vol.4 No.1 (2012.02)바로가기
  • 페이지
    pp.13-17
  • 저자
    JAziz Murtazaev, Jang-Su Kihm, Sangyoon Oh
  • 언어
    영어(ENG)
  • URL
    https://www.earticle.net/Article/A210001

※ 원문제공기관과의 협약기간이 종료되어 열람이 제한될 수 있습니다.

원문정보

초록

영어
Indexing allows converting raw document collection into easily searchable representation. Web searching by Google or Yahoo provides subsecond response time which is made possible by efficient indexing of web-pages over the entire Web. Indexing process gets challenging when the scale gets bigger. Parallel techniques, such as MapReduce framework can assist in efficient large-scale indexing process. In this paper we propose PDFindexer, system for indexing scientific papers in PDF using MapReduce programming model. Unlike Web search engines, our target domain is scientific papers, which has pre-defined structure, such as title, abstract, sections, references. Our proposed system enables parsing scientific papers in PDF recreating their structure and performing efficient distributed indexing with MapReduce framework in a cluster of nodes. We provide the overview of the system, their components and interactions among them. We discuss some issues related with the design of the system and usage of MapReduce in parsing and indexing of large document collection.

목차

Abstract
 1. Introduction
 2. Background and Related Works
  A. Information Retrieval
  B. MapReduce framework
 3. PDFindexer System Proposal
 4. Design Details and Implementation Plan
  A. Preprocessing large-scale PDF articles with MapReduce
  B. Text-indexing of parsed articles with MapReduce
  C. Querying on resulted indices
 5. Conclusion and Future Works
 References

키워드

information retrieval parallel processing indexing MapReduce

저자

  • JAziz Murtazaev [ Department of Computer Engineering. Ajou University, Korea ]
  • Jang-Su Kihm [ Department of Computer Engineering. Ajou University, Korea ]
  • Sangyoon Oh [ Department of Computer Engineering. Ajou University, Korea ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    국제인공지능학회(구 한국인터넷방송통신학회) [The International Association for Artificial Intelligence]
  • 설립연도
    2000
  • 분야
    공학>전자/정보통신공학
  • 소개
    인터넷방송, 인터넷 TV , 방송 통신 네트워크 및 관련 분야에 대한 국내는 물론 국제적인 학술, 기술의 진흥발전에 공헌하고 지식 정보화 사회에 기여하고자 한다.

간행물

  • 간행물명
    International Journal of Internet, Broadcasting and Communication
  • 간기
    계간
  • pISSN
    2288-4920
  • eISSN
    2288-4939
  • 수록기간
    2009~2025
  • 십진분류
    KDC 326 DDC 380

이 권호 내 다른 논문 / International Journal of Internet, Broadcasting and Communication Vol.4 No.1

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장