실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현

김영아; 김계희; 김현주; 김창근

216.73.216.223

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현
Design and Implemention of Real-time web Crawling distributed monitoring system

발행기관

중소기업융합학회 바로가기
간행물

융합정보논문지(구 중소기업융합학회논문지) KCI 등재 바로가기
통권

제9권 제1호 (2019.01)바로가기
페이지

pp.45-53
저자

김영아, 김계희, 김현주, 김창근
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A346187

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어: We face problems from excessive information served with websites in this rapidly changing information era. We find little information useful and much useless and spend a lot of time to select information needed. Many websites including search engines use web crawling in order to make data updated. Web crawling is usually used to generate copies of all the pages of visited sites. Search engines index the pages for faster searching. With regard to data collection for wholesale and order information changing in realtime, the keyword-oriented web data collection is not adequate. The alternative for selective collection of web information in realtime has not been suggested. In this paper, we propose a method of collecting information of restricted web sites by using Web crawling distributed monitoring system (R-WCMS) and estimating collection time through detailed analysis of data and storing them in parallel system. Experimental results show that web site information retrieval is applied to the proposed model, reducing the time of 15-17%.

한국어: 급변하는 정보화 시대에서 웹사이트에 서비스되는 정보 과잉에 대한 문제들을 접하곤 한다. 정보가 많 아도 쓸모 있는 정보는 없고, 필요한 정보를 선택하는데 불필요한 시간이 많이 소비 된다. 검색 엔진과 같은 여 러 사이트에서는 데이터의 최신 상태 유지를 위해 웹 크롤링을 한다. 웹 크롤링은 대부분 방문한 사이트의 모 든 페이지의 복사본을 생성하는 데 사용되며 검색 엔진은 이렇게 생성된 페이지를 더욱 빠른 검색을 위해 인덱 싱 한다. 많은 데이터 중에 정보가 실시간으로 변경되는 도매정보, 주문정보 등의 제한된 웹 데이터 수집은 일 반적인 주제 중심의 웹 데이터 수집으로 무리가 있다. 현재 제한적 웹 정보를 실시간으로 수집하고 저장하는 방법에 대한 대안이 제시되고 있지 않다. 본 논문에서는 제한된 웹 사이트의 정보를 수집하고, 데이터의 상세 분석을 통한 수집 시간 예측과 분류 작업을 통해 병렬 시스템에 저장하는 웹 크롤링 분산 모니터링 시스템 (R-WCMS)을 제안한다. 실험 결과 웹 사이트 정보 검색을 제안모델에 적용하여 15-17% 시간이 감소됨을 입증 했다.

요약
Abstract
1. 서론
2. 관련연구
2.1 Structure of Web Crawler
2.2 Topical crawler
2.3 Apache Kafka
3. 제안 모델
3.1 웹 데이터 수집기
3.2 실시간 웹 데이터 모니터 시스템
4. 실험 및 평가
4.1 실험 환경
4.2 실험 방법
4.3 결과 및 분석
5. 결론
REFERENCES

키워드

웹 크롤링 빅 데이터 하둡 스파크 카프카 병렬시스템 모니터링 Web Crawling big data hadoop spark kafka Parallel systems Monitoring

저자

김영아 [ Yeong-A Kim | 경남과학기술대학교 컴퓨터공학과 학생 ]
김계희 [ Gea-Hee Kim | 경남과학기술대학교 컴퓨터공학과 강사 ]
김현주 [ Hyun-Ju Kim | 경남과학기술대학교 컴퓨터공학과 교수 ]
김창근 [ Chang-Geun Kim | 경남과학기술대학교 컴퓨터공학과 교수 ] Corresponding author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

중소기업융합학회 [Convergence Society for SMB]
설립연도
2011
분야
공학>공학일반
소개
본 회는 정보기술을 다양한 산업 분야에 융합하는 정책 및 관련 기술들을 개발하고 보급함으로써 중소기업 발전은 물론 이를 통한 국가발전과 국제협력 증진에 기여하고자 한다.

간행물

간행물명

융합정보논문지(구 중소기업융합학회논문지) [Journal of Convergence for Information Technology]
간기
월간
pISSN
2586-1816
eISSN
2586-4440
수록기간
2011~2022
십진분류
KDC 004 DDC 004

이 권호 내 다른 논문 / 융합정보논문지(구 중소기업융합학회논문지) 제9권 제1호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현
Design and Implemention of Real-time web Crawling distributed monitoring system

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 융합정보논문지(구 중소기업융합학회논문지) 제9권 제1호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현 Design and Implemention of Real-time web Crawling distributed monitoring system

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 융합정보논문지(구 중소기업융합학회논문지) 제9권 제1호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

실시간 웹 크롤링 분산 모니터링 시스템 설계 및 구현
Design and Implemention of Real-time web Crawling distributed monitoring system