Earticle

현재 위치 Home

큐를 이용한 다중스레드 방식의 웹 크롤링 설계
Multi-threaded Web Crawling Design using Queues

첫 페이지 보기
  • 발행기관
    중소기업융합학회 바로가기
  • 간행물
    융합정보논문지(구 중소기업융합학회논문지) KCI 등재후보 바로가기
  • 통권
    제7권 제2호 (2017.04)바로가기
  • 페이지
    pp.43-51
  • 저자
    김효종, 이준연, 신승수
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A301107

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어
The purpose of this study is to propose a multi-threaded web crawl using queues that can solve the problem of time delay of single processing method, cost increase of parallel processing method, and waste of manpower by utilizing multiple bots connected by wide area network Design and implement. This study designs and analyzes applications that run on independent systems based on multi-threaded system configuration using queues. We propose a multi-threaded web crawler design using queues. In addition, the throughput of web documents can be analyzed by dividing by client and thread according to the formula, and the efficiency and the number of optimal clients can be confirmed by checking efficiency of each thread. The proposed system is based on distributed processing. Clients in each independent environment provide fast and reliable web documents using queues and threads. There is a need for a system that quickly and efficiently navigates and collects various web sites by applying queues and multiple threads to a general purpose web crawler, rather than a web crawler design that targets a particular site.
한국어
본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용하여 단일처리 방식의 시간 지연의 문제점과 병렬처리 방식의 비용증가, 인력낭비에 대한 문제점을 해결할 수 있는 큐를 이용한 다중스레드 방식의 웹 크롤링을 연구한다. 본 연구는 큐를 이용한 다중스레드 방식의 시스템 구성을 바탕으로 독립된 시스템에서 실행하는 어플리케이션을 설계하고 분석한다. 큐를 이용하여 다중 스레드 방식의 웹 크롤러 설계를 제안한다. 또한, 웹 문서의 처리량을 수식에 따라 클라이언트와 스레드 별로 나누어 분석하고, 각각 효율성 비교를 통해 최적의 클라이언트의 개수와 스레드의 개수를 확인 할 수 있다. 제안하는 시스템의 설계 방식은 분산처리를 기반으로 각각의 독립된 환경에서의 클라이언트는 큐와 스레드를 이용하여 빠르고 신뢰성이 높은 웹 문서를 제공한다. 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색 및 수집하는 시스템이 필요하다.

목차

요약
 Abstract
 1. 서론
 2. 관련연구
  2.1 웹 검색 시스템
  2.2 웹 크롤러
 3. 다중스레드 방식의 웹 크럴링 설계
  3.1 시스템 설계
  3.2 시스템 구현
 4. 시스템 분석
 5. 결론
 REFERENCES

키워드

웹 크롤링 다중스레드 ERD URL Web Crawling Entity-Relationship Diagram Multi-threaded Bot Uniform Resource Locator

저자

  • 김효종 [ Hyo-Jong Kim | 동명대학교 정보보보학과 ]
  • 이준연 [ Jun-Yun Lee | 동명대학교 디지털미디어 공학부 ]
  • 신승수 [ Seungsoo Shin | 동명대학교 정보보보학과 ] Corresponding author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    중소기업융합학회 [Convergence Society for SMB]
  • 설립연도
    2011
  • 분야
    공학>공학일반
  • 소개
    본 회는 정보기술을 다양한 산업 분야에 융합하는 정책 및 관련 기술들을 개발하고 보급함으로써 중소기업 발전은 물론 이를 통한 국가발전과 국제협력 증진에 기여하고자 한다.

간행물

  • 간행물명
    융합정보논문지(구 중소기업융합학회논문지) [Journal of Convergence for Information Technology]
  • 간기
    월간
  • pISSN
    2586-1816
  • eISSN
    2586-4440
  • 수록기간
    2011~2022
  • 십진분류
    KDC 004 DDC 004

이 권호 내 다른 논문 / 융합정보논문지(구 중소기업융합학회논문지) 제7권 제2호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장