Earticle

현재 위치 Home

인공지능/빅데이터

Hierarchical Sentiment Classification for Agglutinative Languages : Enhancing Annotation Consistency with Human-in-the-Loop and Collective Intelligence
피드백 루프와 집단 지성을 활용한 교착어를 위한 계층적 감성 분류

첫 페이지 보기
  • 발행기관
    대한산업경영학회 바로가기
  • 간행물
    산업융합연구(구 대한산업경영학회지) KCI 등재 바로가기
  • 통권
    제23권 제4호 (2025.04)바로가기
  • 페이지
    pp.17-29
  • 저자
    Eunhee An, Jungkook An
  • 언어
    영어(ENG)
  • URL
    https://www.earticle.net/Article/A466290

※ 기관로그인 시 무료 이용이 가능합니다.

4,500원

원문정보

초록

영어
High-quality sentiment analysis datasets are critical for enhancing the performance of natural language processing (NLP) systems, especially for morphologically complex agglutinative languages. This study aims to improve the consistency and accuracy of sentiment annotation by considering the unique linguistic characteristics of such languages. To this end, we propose a hybrid annotation framework that combines Hierarchical Sentiment Voting (HSV), which organizes sentiment classification into multiple levels, with a Human-in-the-Loop (HITL) mechanism that selectively applies human validation to low-confidence annotations. The study focuses on agglutinative languages, including Korean, and constructs a dataset of over 1.5 million text samples collected from various online sources such as product reviews, movie critiques, and community comments. Experimental results show that the proposed method significantly improves inter-annotator agreement and model performance, particularly in contexts requiring fine-grained sentiment distinctions. This research empirically demonstrates the importance of structured, human-refined annotation for building reliable sentiment datasets in agglutinative languages and presents a practical framework that can support the development of accurate sentiment analysis models.
한국어
고품질 감성 분석 데이터셋은 형태론적으로 복잡한 교착어를 포함한 자연어 처리(NLP) 성능 향상에 핵심적이다. 본 연구는 이러한 언어적 특성을 고려하여 감성 주석의 일관성과 정확성을 향상시키기 위한 목적을 가진다. 이를 위해 감성 분류 를 다단계로 구성하는 계층적 감성 분류(Hierarchical Sentiment Voting, HSV) 방식과 불확실성이 높은 주석에 인간 검토 를 추가하는 인간 개입 기반(Human-in-the-Loop, HITL) 프레임워크를 결합한 하이브리드 주석 방식을 제안한다. 연구 범 위는 한국어를 포함한 교착어에 집중되며, 다양한 온라인 데이터(상품 후기, 영화 리뷰, 커뮤니티 댓글 등)로부터 150만 건 이 상의 텍스트를 수집하여 데이터셋을 구축하였다. 실험 결과, 제안된 방법은 주석자 간 일치도와 감성 분류 모델의 성능을 모 두 향상시켰으며, 특히 미세한 감성 차이를 요구하는 문맥에서 높은 안정성을 보였다. 본 연구는 교착어 기반 감성 데이터셋 구축에 있어 구조화된 인간 정제 주석이 중요함을 실증적으로 제시하며, 실무적으로는 정확한 감성 분석 모델 개발에 기여할 수 있는 데이터 구축 프레임워크로 활용될 수 있다.

목차

Abstract
요약
1. Introduction
2. Related Work
2.1 Sentiment Analysis Datasets
2.2 Human-in-the-Loop (HITL) for Dataset Enhancement
2.3 Alternative Approaches: Data-Centric Strategies
3. Proposed Methodology
3.1 Dataset Construction Pipeline
3.2 Two-Stage Crowdsourcing-Based HITL Annotation
3.3 Hierarchical Sentiment Classification
3.4 Efficient Labeling through HITL and Hierarchical Sentiment Voting
4. Experimental Results: Data Quality Evaluation
5. Experimental Results: Performance Evaluation
6. Discussion
7. Conclusion
REFERENCES

키워드

자연어처리 감성분석 계층적 감성 분류 집단지성 교착어 natural language processing sentiment analysis hierarchical sentiment classification collective intelligence agglutinative language

저자

  • Eunhee An [ 안은희 | Student, School of Business, Yonsei University, WhiteScan Inc. ]
  • Jungkook An [ 안정국 | WhiteScan Inc. ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    대한산업경영학회 [Dae Han Society of Industrial Management]
  • 설립연도
    2003
  • 분야
    복합학>과학기술학
  • 소개
    본 학회는 산업체·학계·연구소 등의 회원 상호간에 정보교환 및 지원을 통하여 산업경영에 관한 학문발전을 도모하고 산학에 관한 긴밀한 네트워크를 형성하여 기업의 경쟁력을 강화시키는데 그 설립 목적을 두고 있다.

간행물

  • 간행물명
    산업융합연구(구 대한산업경영학회지) [Journal of Industrial Convergence]
  • 간기
    월간
  • pISSN
    2635-8875
  • 수록기간
    2003~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 323 DDC 338

이 권호 내 다른 논문 / 산업융합연구(구 대한산업경영학회지) 제23권 제4호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장