Earticle

현재 위치 Home

JIIBC 2013-4-19

특징선택과 특징가중의 융합을 통한 웹문서분류 성능의 개선
Performance Improvement of Web Document Classification through Incorporation of Feature Selection and Weighting

첫 페이지 보기
  • 발행기관
    국제인공지능학회(구 한국인터넷방송통신학회) 바로가기
  • 간행물
    한국인터넷방송통신학회 논문지 KCI 등재 바로가기
  • 통권
    제13권 제4호 (2013.08)바로가기
  • 페이지
    pp.141-148
  • 저자
    이아람, 김한준, 현만
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A210036

※ 원문제공기관과의 협약기간이 종료되어 열람이 제한될 수 있습니다.

원문정보

초록

영어
Automated classification systems which utilize machine learning develops classification models through learning process, and then classify unknown data into predefined set of categories according to the model. The performance of machine learning-based classification systems relies greatly upon the quality of features composing classification models. For textual data, we can use their word terms and structure information in order to generate the set of features. Particularly, in order to extract feature from Web documents, we need to analyze tag and hyperlink information. Recent studies on Web document classification focus on feature engineering technology other than machine learning algorithms themselves. Thus this paper proposes a novel method of incorporating feature selection and weighting which can improves classification models effectively. Through extensive experiments using Web-KB document collections, the proposed method outperforms conventional ones.
한국어
기계학습을 이용한 자동분류시스템은 학습과정을 통해 분류모델을 구축하고 이를 기반으로 미분류 데이터를 특정 카테고리로 분류한다. 기계학습 기반 자동분류 시스템의 성능은 분류모델의 구성 인자인 특징의 품질에 크게 의 존한다. 문서 데이터의 경우 특징 집합을 생성하기 위해 문서내의 출현단어와 문서의 구조적 정보를 활용한다. 특히 웹문서로부터 특징을 추출하기 위해 단어뿐만 아니라 태그, 하이퍼링크 정보를 분석할 수 있다. 최근 웹문서의 분류 기법에 대한 연구는 기계학습 알고리즘보다 특징 생성 및 가공 기술에 초점을 맞추고 있다. 이에 본 논문은 웹문서의 분류모델을 개선하기 위해 단어, 태그, 하이퍼링크 정보로부터 고품질의 특징을 선별 추출하여 가중치를 자동으로 부 여하는 기법을 제안한다. Web-KB 문서집합을 이용한 다양한 실험을 통해 제안 기법의 우수성을 보인다.

목차

요약
 Abstract
 Ⅰ. 서론
 Ⅱ. 배경 지식 및 관련 연구
 Ⅲ. 인접 웹문서를 이용한 특징선택과 가중치 부여 기법
  1. 태그 정보를 이용한 특징 추출
  2. 권위도를 이용한 특징가중
  3. 권위도 및 태그 정보를 융합한 특징가중 기법
 Ⅳ. 실험 및 결과
  1. 실험 환경
  2. 실험 결과
 Ⅴ. 결론
 References

키워드

Document Classification Web Feature Selection Feature Weighting Machine Learning

저자

  • 이아람 [ Ah-Ram Lee | 정회원, 서울시립대학교 전자전기컴퓨터공학부 ]
  • 김한준 [ Han-Joon Kim | 정회원, 서울시립대학교 전자전기컴퓨터공학부 ] 교신저자
  • 현만 [ Xuan Man | 준회원, 서울시립대학교 전자전기컴퓨터공학부 ]

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    국제인공지능학회(구 한국인터넷방송통신학회) [The International Association for Artificial Intelligence]
  • 설립연도
    2000
  • 분야
    공학>전자/정보통신공학
  • 소개
    인터넷방송, 인터넷 TV , 방송 통신 네트워크 및 관련 분야에 대한 국내는 물론 국제적인 학술, 기술의 진흥발전에 공헌하고 지식 정보화 사회에 기여하고자 한다.

간행물

  • 간행물명
    한국인터넷방송통신학회 논문지 [The Journal of the Institute of Internet, Broadcasting and Communication]
  • 간기
    격월간
  • pISSN
    2289-0238
  • eISSN
    2289-0246
  • 수록기간
    2001~2025
  • 십진분류
    KDC 326 DDC 380

이 권호 내 다른 논문 / 한국인터넷방송통신학회 논문지 제13권 제4호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장