Earticle

현재 위치 Home

질의 기반 SciBERT 임베딩을 활용한 학술 논문 의미 탐색 및 클러스터링
Query-Aware SciBERT Embeddings for Semantic Exploration and Clustering of Scholarly Documents

첫 페이지 보기
  • 발행기관
    한국차세대컴퓨팅학회 바로가기
  • 간행물
    한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
  • 통권
    Vol.21 No.5 (2025.10)바로가기
  • 페이지
    pp.147-159
  • 저자
    이우주, 송현주
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A475403

원문정보

초록

영어
Effectively exploring user-desired information and understanding the structure of large document collections remain significant challenges. Conventional document embedding models generate static semantic representations, which limit their ability to reflect diverse user intents and perspectives. To address this limitation, this study proposes a novel framework that dynamically reconstructs the semantic space of documents according to a user's query. Leveraging the pre-trained language model SciBERT, the framework generates Query-Aware Dynamic Embeddings that explicitly model the relationship between a query and each document. These embeddings are then projected into a lower-dimensional space using UMAP and clustered with HDBSCAN, enabling multi-faceted and in-depth exploration of document collections. The proposed pipeline provides an effective exploratory environment in which users can actively control the scope of analysis through queries, thereby gaining deeper insights into the semantic organization of large-scale document collections.
한국어
대규모 문서 집합에서 사용자가 찾고자 하는 정보를 효과적으로 탐색하고 문서 집합의 구성을 이해하는 것은 중요한 과제이다. 기존 문서 임베딩 모델은 고정된 의미 표현만을 생성해 다양한 탐색 의도나 관점을 반영하는 데 한계가 있다. 본 연구는 이를 해결하기 위해 사용자 질의(Query)에 따라 문서 의미 공간을 동적으로 재구성하는 새로운 프 레임워크를 제안한다. 사전 학습 언어 모델(SciBERT)을 활용해 질의와 문서의 관계를 모델링하는 질의 인식 동적 임베딩(Query-Aware Dynamic Embedding)을 생성하며, 이를 UMAP 기반 차원 축소와 HDBSCAN 군집화 에 적용하여 다각적이고 심층적인 문서 탐색을 지원한다. 이 파이프라인은 사용자가 질의를 통해 분석 범위(Scope) 를 능동적으로 조절하며 문서 집합에 대한 통찰력을 얻는 효과적인 탐색 환경을 제공한다.

목차

요약
Abstract
1. 서론
2. 관련연구
2.1 정보 검색을 위한 Query-Aware 임베딩
2.2 임베딩 기반의 탐색적 시각 분석
3. 방법론
3.1 Query-Aware 문서 임베딩 작성
3.2 차원 축소 및 클러스터링
3.3 실험 환경 및 재현성 확보
4. 실험결과
4.1 데이터셋 구축
4.2 Unsupervised 평가: 임베딩 전략 비교
4.3 정성적 분석: 시각화를 통한 의미 구조 비교
5. 논의
6. 결론 및 향후 연구
Acknowledgements
참고문헌

키워드

자연어 처리 SciBERT 질의 인식 동적 임베딩 문서 군집화 문서 시각화 탐색적 데이터 분석 Natural Language Processing SciBERT Query-Aware Dynamic Embedding Document Clustering Document Visualization Exploratory Data Analysis

저자

  • 이우주 [ Wooju Lee | 숭실대학교 컴퓨터학부 ]
  • 송현주 [ Hyunjoo Song | 숭실대학교 컴퓨터학부 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
  • 설립연도
    2005
  • 분야
    공학>컴퓨터학
  • 소개
    본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

  • 간행물명
    한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
  • 간기
    격월간
  • pISSN
    1975-681X
  • 수록기간
    2005~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.21 No.5

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장