Earticle

현재 위치 Home

기술 융합(TC)

불용어 시소러스를 이용한 비정형 텍스트 데이터 후처리 방법론에 관한 연구
A Study on Unstructured text data Post-processing Methodology using Stopword Thesaurus

첫 페이지 보기
  • 발행기관
    국제문화기술진흥원 바로가기
  • 간행물
    The Journal of the Convergence on Culture Technology (JCCT) KCI 등재 바로가기
  • 통권
    Vol.9 No.6 (2023.12)바로가기
  • 페이지
    pp.935-940
  • 저자
    이원조
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A440787

※ 원문제공기관과의 협약기간이 종료되어 열람이 제한될 수 있습니다.

원문정보

초록

영어
Most text data collected through web scraping for artificial intelligence and big data analysis is generally large and unstructured, so a purification process is required for big data analysis. The process becomes structured data that can be analyzed through a heuristic pre-processing refining step and a post-processing machine refining step. Therefore, in this study, in the post-processing machine refining process, the Korean dictionary and the stopword dictionary are used to extract vocabularies for frequency analysis for word cloud analysis. In this process, “user-defined stopwords” are used to efficiently remove stopwords that were not removed. We propose a methodology for applying the “thesaurus” and examine the pros and cons of the proposed refining method through a case analysis using the “user-defined stop word thesaurus” technique proposed to complement the problems of the existing “stop word dictionary” method with R’s word cloud technique. We present comparative verification and suggest the effectiveness of practical application of the proposed methodology.
한국어
인공지능과 빅데이터 분석을 위해 웹 스크래핑으로 수집된 대부분의 텍스트 데이터들은 일반적으로 대용량이 고 비정형이기 때문에 빅데이터 분석을 위해서는 정제과정이 요구된다. 그 과정은 휴리스틱 전처리 정제단계와 후처 리 머시인 정제단계를 통해서 분석이 가능한 정형 데이터가 된다. 따라서 본 연구에서는 후처리 머시인 정제과정에서 한국어 딕셔너리와 불용어 딕셔너리를 이용하여 워드크라우드 분석을 위한 빈도분석을 위해 어휘들을 추출하게 되는 데 이 과정에서 제거되지 않은 불용어를 효율적으로 제거하기 위한 “사용자 정의 불용어 시소러스” 적용에 대한 방 법론을 제안하고 R의 워드클라우드 기법으로 기존의 “불용어 딕셔너리” 방법의 문제점을 보완하기 위해 제안된 “사 용자 정의 불용어 시소러스” 기법을 이용한 사례분석을 통해서 제안된 정제방법의 장단점을 비교 검증하여 제시하고 제안된 방법론의 실무적용에 대한 효용성을 제안한다.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 관련연구
1. 머시인러닝(Machine learning)
2. 비정형 텍스트 데이터
Ⅲ. 한국어 텍스트 데이터 분석
1. 한국어 텍스트 데이터 분석 기법
2. 제안 텍스트 데이터 정제모델
3. 텍스트 데이터 전처리 정제
4. 텍스트 데이터 정제과정
5. 정제방법 장단점 비교표
Ⅳ. 워드클라우드 시각화 사례구현
1. 사례구현 방법
2. 사용자 정의 불용어 시소러스의 생성
3. 워드클라우드 시각화 분석결과
4. 시각화 분석결과 해석
Ⅴ. 결론
References

키워드

빅데이터 분석 비정형 텍스트 데이터 워드클라우드 시각화분석 전처리 정제 후처리 정제 불용어 시소러스 Bigdata analysis unstructured text data word cloud visualization analysis pre- processing refinement post-processing refinement stop words thesaurus

저자

  • 이원조 [ Won-Jo Lee | 정회원, 울산과학대학교 스마트제조공학과 부교수 ] 제1저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    국제문화기술진흥원 [The International Promotion Agency of Culture Technology]
  • 설립연도
    2009
  • 분야
    공학>공학일반
  • 소개
    본 진흥원은 문화기술(Culture Technology) 관련 산·학·연·관으로 구성된 비영리 단체이다. 문화기술(CT)은 정보통신기술(ICT), 문화적 사고 기반의 예술, 인문학, 디자인, 사회과학기술이 접목된 신융합기술(New Convergence Technology, NCT)로 정의한다. 인간의 삶의 질을 향상시키고, 진보된 방향으로 변화시키고, 문화기술 관련 분야의 학술 및 기술의 발전과 진흥에 공헌하기 위하여, 제3조의 필요한 사업을 행함을 그 목적으로 한다.

간행물

  • 간행물명
    The Journal of the Convergence on Culture Technology (JCCT) [문화기술의 융합]
  • 간기
    격월간
  • pISSN
    2384-0358
  • eISSN
    2384-0366
  • 수록기간
    2015~2025
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 600 DDC 700

이 권호 내 다른 논문 / The Journal of the Convergence on Culture Technology (JCCT) Vol.9 No.6

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장