큐를 이용한 다중스레드 방식의 웹 크롤링 설계

김효종; 이준연; 신승수

216.73.216.134

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

큐를 이용한 다중스레드 방식의 웹 크롤링 설계
Multi-threaded Web Crawling Design using Queues

발행기관

중소기업융합학회 바로가기
간행물

융합정보논문지(구 중소기업융합학회논문지) KCI 등재후보 바로가기
통권

제7권 제2호 (2017.04)바로가기
페이지

pp.43-51
저자

김효종, 이준연, 신승수
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A301107

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어: The purpose of this study is to propose a multi-threaded web crawl using queues that can solve the problem of time delay of single processing method, cost increase of parallel processing method, and waste of manpower by utilizing multiple bots connected by wide area network Design and implement. This study designs and analyzes applications that run on independent systems based on multi-threaded system configuration using queues. We propose a multi-threaded web crawler design using queues. In addition, the throughput of web documents can be analyzed by dividing by client and thread according to the formula, and the efficiency and the number of optimal clients can be confirmed by checking efficiency of each thread. The proposed system is based on distributed processing. Clients in each independent environment provide fast and reliable web documents using queues and threads. There is a need for a system that quickly and efficiently navigates and collects various web sites by applying queues and multiple threads to a general purpose web crawler, rather than a web crawler design that targets a particular site.

한국어: 본 연구의 목적은 광역 네트워크로 연결된 다수의 봇을 활용하여 단일처리 방식의 시간 지연의 문제점과 병렬처리 방식의 비용증가, 인력낭비에 대한 문제점을 해결할 수 있는 큐를 이용한 다중스레드 방식의 웹 크롤링을 연구한다. 본 연구는 큐를 이용한 다중스레드 방식의 시스템 구성을 바탕으로 독립된 시스템에서 실행하는 어플리케이션을 설계하고 분석한다. 큐를 이용하여 다중 스레드 방식의 웹 크롤러 설계를 제안한다. 또한, 웹 문서의 처리량을 수식에 따라 클라이언트와 스레드 별로 나누어 분석하고, 각각 효율성 비교를 통해 최적의 클라이언트의 개수와 스레드의 개수를 확인 할 수 있다. 제안하는 시스템의 설계 방식은 분산처리를 기반으로 각각의 독립된 환경에서의 클라이언트는 큐와 스레드를 이용하여 빠르고 신뢰성이 높은 웹 문서를 제공한다. 특정 사이트를 대상으로 하는 웹 크롤러 설계가 아닌 범용 웹 크롤러에 큐와 다중 스레드를 적용하여 다양한 웹 사이트를 빠르고 효율적으로 탐색 및 수집하는 시스템이 필요하다.

키워드

웹 크롤링 다중스레드 큐 ERD URL Web Crawling Entity-Relationship Diagram Multi-threaded Bot Uniform Resource Locator

저자

김효종 [ Hyo-Jong Kim | 동명대학교 정보보보학과 ]
이준연 [ Jun-Yun Lee | 동명대학교 디지털미디어 공학부 ]
신승수 [ Seungsoo Shin | 동명대학교 정보보보학과 ] Corresponding author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

중소기업융합학회 [Convergence Society for SMB]
설립연도
2011
분야
공학>공학일반
소개
본 회는 정보기술을 다양한 산업 분야에 융합하는 정책 및 관련 기술들을 개발하고 보급함으로써 중소기업 발전은 물론 이를 통한 국가발전과 국제협력 증진에 기여하고자 한다.

간행물

간행물명

융합정보논문지(구 중소기업융합학회논문지) [Journal of Convergence for Information Technology]
간기
월간
pISSN
2586-1816
eISSN
2586-4440
수록기간
2011~2022
십진분류
KDC 004 DDC 004

이 권호 내 다른 논문 / 융합정보논문지(구 중소기업융합학회논문지) 제7권 제2호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

큐를 이용한 다중스레드 방식의 웹 크롤링 설계
Multi-threaded Web Crawling Design using Queues

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 융합정보논문지(구 중소기업융합학회논문지) 제7권 제2호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

큐를 이용한 다중스레드 방식의 웹 크롤링 설계 Multi-threaded Web Crawling Design using Queues

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 융합정보논문지(구 중소기업융합학회논문지) 제7권 제2호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

큐를 이용한 다중스레드 방식의 웹 크롤링 설계
Multi-threaded Web Crawling Design using Queues