Earticle

현재 위치 Home

기술

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구
Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words)

첫 페이지 보기
  • 발행기관
    한국디지털정책학회 바로가기
  • 간행물
    디지털융복합연구 KCI 등재 바로가기
  • 통권
    제17권 제2호 (2019.02)바로가기
  • 페이지
    pp.163-170
  • 저자
    어균선, 이건창
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A348549

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어
Over the past decade, the development of the Web explosively increased the data. Feature selection step is an important step in extracting valuable data from a large amount of data. This study proposes a novel opinion mining model based on combining feature selection (FS) methods with Word embedding to vector (Word2vec) and BOW (Bag-of-words). FS methods adopted for this study are CFS (Correlation based FS) and IG (Information Gain). To select an optimal FS method, a number of classifiers ranging from LR (logistic regression), NN (neural network), NBN (naive Bayesian network) to RF (random forest), RS (random subspace), ST (stacking). Empirical results with electronics and kitchen datasets showed that LR and ST classifiers combined with IG applied to BOW features yield best performance in opinion mining. Results with laptop and restaurant datasets revealed that the RF classifier using IG applied to Word2vec features represents best performance in opinion mining.
한국어
과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미 한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈 (Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선 택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로 지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했 다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

목차

요약
Abstract
1. 서론
2. 관련연구
2.1 오피니언 마이닝(Opinion mining)
2.2 워드임베딩(Word embedding)
3. 분류기(Classifiers)
3.1 단일분류기
3.2 앙상블분류기
4. 연구방법 및 결과
4.1 연구절차
4.2 데이터
4.3 연구결과
5. 토의 및 결론
REFERENCES

키워드

워드 임베딩 오피니언 마이닝 감성분석 속성선택 머신러닝 Word embedding Opinion mining Sentiment analysis Feature selection Machine learning

저자

  • 어균선 [ Kyun Sun Eo | 성균관대학교 경영대학 박사과정 ]
  • 이건창 [ Kun Chang Lee | 성균관대학교 글로벌경영학과/삼성융합의과학원 융합의과학과 교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국디지털정책학회 [The Society of Digital Policy & Management]
  • 설립연도
    2003
  • 분야
    복합학>과학기술학
  • 소개
    디지털기술 및 산업정책, 디지털경제, 관련 산업의 연구, 전자정부, 디지털정치에 관한 제도적, 정책적 연구, 디지털경영, 전자상거래, e-비즈니스에 관한 실용적 연구, 학술연구지 발간 및 학술대회 개최 등을 통하여 디지털경제 및 디지털경영에 관련되는 국가정책 분야의 연구 및 교류를 촉진하고 국가 및 기업 정보화와 디지털산업의 발전에 공헌한다.

간행물

  • 간행물명
    디지털융복합연구 [Journal of Digital Convergence]
  • 간기
    계간
  • pISSN
    2713-6434
  • eISSN
    2713-6442
  • 수록기간
    2003~2026
  • 등재여부
    KCI 등재후보
  • 십진분류
    KDC 569 DDC 620

이 권호 내 다른 논문 / 디지털융복합연구 제17권 제2호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장