한국어 문서 검색에서 키워드 기반 검색과 의미 기반 검색의 성능 비교 연구
A Comparative Study on the Performance of Keyword-Based and Semantic-Based Retrieval in Korean Document Search
본 연구는 한국어의 교착어적 특성과 형태소 분석의 복잡성을 고려하여, 영어 중심으로 발전한 밀집 검색(Dense Retrieval) 방식이 한국어 문서 검색 환경에서도 유효한지 실증적으로 검증하였다. 이를 위해 KLUE-MRC 벤치마크 데이터셋(질의 5,841건, 문서 15,797건)을 활용하여 전통적인 키워드 기반 방식인 BM25와 의미 기반인 Ko-SRoBERTa, KoE5, 그리고 이들을 결합한 하이브리드 방식의 성능을 다각도로 평가하였다. 실험 결과, KoE5 기반 밀집 검색이 nDCG@10 기준 0.718로 우수한 성능을 기록하며 BM25(0.567) 대비 약 15%p의 성능 우위를 보였다. 그리고 KLUE-MRC 학습 데이터를 활용한 KoE5 파인튜닝을 통해 nDCG@10 기준 0.739로 성능이 더욱 향상됨을 확인하였다. 반면, Ko-SRoBERTa는 BM25보다 낮은 성능을 기록하여 밀집 검색 모델이라 할지라도 모델의 품질과 학습 목적에 따라 성능 역전이 발생할 수 있음을 확인하였다. 한편, 하이브리드 방식은 Recall@10(0.841)에서 최고치를 달성하며 두 방식의 상호보완적 가능성을 입증하였다. 본 연구의 결과는 향후 한국어 검색 시스템 구축 시 단순한 방법론 채택보다 도메인 특성 및 응용 목적에 최적화된 모델 선택이 필수적임을 시사한다.
영어
This study aims to empirically examine whether Dense Retrieval methods, primarily developed in English-centric research environments, are effective for Korean document retrieval, considering the agglutinative nature of the language and the complexity of morphological analysis. Using the KLUE-MRC benchmark dataset (5,841 queries and 15,797 documents), we evaluated BM25, Ko-SRoBERTa, KoE5, a fine-tuned KoE5, and a hybrid approach (combining BM25 and KoE5) based on Recall@5/10, MRR@10, and nDCG@10 metrics. The experimental results show that KoE5-based Dense Retrieval achieved an nDCG@10 score of 0.718, outperforming the traditional BM25 (0.567) by approximately 15 percentage points. Furthermore, fine-tuning KoE5 on the KLUE-MRC training set further improved performance to an nDCG@10 score of 0.739. In contrast, Ko-SRoBERTa performed worse than BM25, confirming that retrieval performance can vary significantly depending on model quality and training objectives, even within the Dense Retrieval paradigm. The hybrid method achieved the best Recall@10 (0.841), demonstrating the complementary potential of combining lexical and semantic search. These findings suggest that, when constructing Korean document retrieval systems, selecting optimized models according to domain characteristics and application goals is more critical than merely choosing a retrieval paradigm.
목차
요약 Abstract 1. 서론 2. 관련 연구 2.1 키워드 기반 검색: BM25 2.2 Dense Retrieval 2.3 하이브리드 검색 3. 연구 방법 3.1 데이터셋 3.2 비교 모델 3.3 실험 환경 3.4 평가 지표 4. 실험 결과 및 분석 4.1 전체 성능 비교 4.2 분석 5. 결론 REFERENCES
저자
최혜림 [ Hye-Rim Choi | 국립부경대학교 인공지능융합학과 학생 ]
김태국 [ Tae-Kook Kim | 국립부경대학교 컴퓨터·인공지능공학부 교수 ]
Corresponding Author