Earticle

다운로드

질의 기반 SciBERT 임베딩을 활용한 학술 논문 의미 탐색 및 클러스터링
Query-Aware SciBERT Embeddings for Semantic Exploration and Clustering of Scholarly Documents

  • 간행물
    한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
  • 권호(발행년)
    Vol.21 No.5 (2025.10) 바로가기
  • 페이지
    pp.147-159
  • 저자
    이우주, 송현주
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A475403

원문정보

초록

한국어
대규모 문서 집합에서 사용자가 찾고자 하는 정보를 효과적으로 탐색하고 문서 집합의 구성을 이해하는 것은 중요한 과제이다. 기존 문서 임베딩 모델은 고정된 의미 표현만을 생성해 다양한 탐색 의도나 관점을 반영하는 데 한계가 있다. 본 연구는 이를 해결하기 위해 사용자 질의(Query)에 따라 문서 의미 공간을 동적으로 재구성하는 새로운 프 레임워크를 제안한다. 사전 학습 언어 모델(SciBERT)을 활용해 질의와 문서의 관계를 모델링하는 질의 인식 동적 임베딩(Query-Aware Dynamic Embedding)을 생성하며, 이를 UMAP 기반 차원 축소와 HDBSCAN 군집화 에 적용하여 다각적이고 심층적인 문서 탐색을 지원한다. 이 파이프라인은 사용자가 질의를 통해 분석 범위(Scope) 를 능동적으로 조절하며 문서 집합에 대한 통찰력을 얻는 효과적인 탐색 환경을 제공한다.
영어
Effectively exploring user-desired information and understanding the structure of large document collections remain significant challenges. Conventional document embedding models generate static semantic representations, which limit their ability to reflect diverse user intents and perspectives. To address this limitation, this study proposes a novel framework that dynamically reconstructs the semantic space of documents according to a user's query. Leveraging the pre-trained language model SciBERT, the framework generates Query-Aware Dynamic Embeddings that explicitly model the relationship between a query and each document. These embeddings are then projected into a lower-dimensional space using UMAP and clustered with HDBSCAN, enabling multi-faceted and in-depth exploration of document collections. The proposed pipeline provides an effective exploratory environment in which users can actively control the scope of analysis through queries, thereby gaining deeper insights into the semantic organization of large-scale document collections.

목차

요약
Abstract
1. 서론
2. 관련연구
2.1 정보 검색을 위한 Query-Aware 임베딩
2.2 임베딩 기반의 탐색적 시각 분석
3. 방법론
3.1 Query-Aware 문서 임베딩 작성
3.2 차원 축소 및 클러스터링
3.3 실험 환경 및 재현성 확보
4. 실험결과
4.1 데이터셋 구축
4.2 Unsupervised 평가: 임베딩 전략 비교
4.3 정성적 분석: 시각화를 통한 의미 구조 비교
5. 논의
6. 결론 및 향후 연구
Acknowledgements
참고문헌

저자

  • 이우주 [ Wooju Lee | 숭실대학교 컴퓨터학부 ]
  • 송현주 [ Hyunjoo Song | 숭실대학교 컴퓨터학부 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

    간행물 정보

    • 간행물
      한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
    • 간기
      격월간
    • pISSN
      1975-681X
    • 수록기간
      2005~2026
    • 등재여부
      KCI 등재
    • 십진분류
      KDC 566 DDC 004