Earticle

현재 위치 Home

텍스트 마이닝에 의한 문학 작품 분류
Classification of Literary Works(Novels) Using Text Mining

첫 페이지 보기
  • 발행기관
    동국대학교 동서사상연구소 바로가기
  • 간행물
    철학사상문화 KCI 등재 바로가기
  • 통권
    제35호 (2021.01)바로가기
  • 페이지
    pp.381-407
  • 저자
    정원일, 방승희, 박명관
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A390170

※ 원문제공기관과의 협약기간이 종료되어 열람이 제한될 수 있습니다.

원문정보

초록

영어
This paper is to introduce quantitative text analysis of some literary works registered in the Project Gutenberg among Big Data and classification of the works using text mining techniques. After performing data preprocessing using the programming language R, we measured cosine similarity between chapters within a novel and cosine similarity between chapters of different novels to classify the novels. We found the cosine similarity between chapters within the novel is relatively high, but not between the novels. Furthermore, clustering analysis, which is an unsupervised machine learning task, showed strong cohesion of semantic distance, and classification analysis, which is a supervised machine learning task, showed high accuracy. In addition, we have confirmed that children's novels can be classified as easy-to-read works due to the large cosine similarity value and small semantic distance between chapters. Therefore, quantitative text analysis using text mining technique is expected to serve as a foundation for performing qualitative text analysis.
한국어
본 연구는 빅데이터(Big Data) 중 하나인 구텐베르그 프로젝트(Project Gutenberg)에 등록되어 있는 문학작품들을 수집해서 텍스트 마이닝 기법에 의한 계량적 텍스트 분석(quantitative text analysis)을 활용하여 문학작품을 분류하는 방법을 소개하는 데에 목적을 두고 있다. 수집된 작품들을 프로그래밍 언어 R을 이용하여 전처리 과정을 한 후, 작품 내의 쳅터(chapter) 간 코사인 유사도와 서로 다른 작품의 쳅터 간 코사인 유사도에 의한 분류를 진행하였다. 동일한 소설 내의 쳅터들 간의 코사인 유사도는 상대적으로 높게 나타나지만 서로 다른 작품의 쳅터들 사이의 코사인 유사도는 대체로 낮은 결과를 보였다. 또한 기계학습(machine learning)의 방법 중 비지도 학습(unsupervised learning)의 군집(clustering) 분석에서 의미적 거리에 의하여 작품 내의 쳅터들의 강한 응집력으로 작품들이 분류되었고, 지도 학습(supervised learning)의 분류(classification) 분석에서도 작품들 간의 분류에서 높은 정확도를 보였다. 또한, 본 연구에서는 아동소설이 쳅터 간에 코사인 유사도 값이 크고 의미적 거리가 작아서 읽기 쉬운 작품으로 분류될 수 있다는 것을 확인하였다. 따라서, 텍스트 마이닝 기법에 의한 계량적 텍스트 분석은 질적 텍스트 분석을 수행하는데에 밑거름이 될 것으로 본다.

목차

요약문
1. 서론
2. 『오만과 편견』과 『작은 아씨들』비교
3. 코사인 유사도(Cosine Similarity)에 의한 분류
4. 기계학습에 의한 분류
5. 논의 및 결론
참고문헌
Abstract

키워드

텍스트 마이닝 분류분석 코사인 유사도 군집분석 아동소설 text mining classification clustering cosain similarity children’s novel

저자

  • 정원일 [ Chung, Wonil | 동국대학교 연구교수 ] 주저자
  • 방승희 [ Bahng, Seunghee | 국민대학교 조교수 ] 공동저자
  • 박명관 [ Park, Myung-Kwan | 동국대학교 교수 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    동국대학교 동서사상연구소 [Institute for East-West Thought Dongguk University]
  • 설립연도
    1998
  • 분야
    인문학>철학
  • 소개
    본 연구소는 철학을 중심으로 한 학제간 연구를 통하여 동서철학의 방향을 정립하며, 현대세계의 올바른 가치관 및 세계관 정립을 목적으로 한다.

간행물

  • 간행물명
    철학사상문화 [PhilosophyㆍThoughtㆍCulture]
  • 간기
    연3회
  • pISSN
    1975-1621
  • 수록기간
    2005~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 105 DDC 105

이 권호 내 다른 논문 / 철학사상문화 제35호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장