Earticle

현재 위치 Home

RAG 시스템에서 고정 크기 및 문장 단위 청킹 전략의 평가 : KorQuAD1.0 데이터셋 활용 한국어 사례
Evaluating Fixed-size and Sentence-based Chunking Strategies for RAG System : A Korean Case on KorQuAD1.0

첫 페이지 보기
  • 발행기관
    한국차세대컴퓨팅학회 바로가기
  • 간행물
    한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
  • 통권
    Vol.22 No.1 (2026.02)바로가기
  • 페이지
    pp.84-96
  • 저자
    이호웅, 선복근
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A480833

원문정보

초록

영어
This study analyzes the impact of chunking strategies on retrieval quality and answer accuracy in Korean retrieval-augmented generation (RAG) systems. Using 612 Wikipedia documents from the KorQuAD dataset and 1,500 question–answer pairs, fixed-size chunking strategies and sentencelevel chunking were comparatively evaluated. Experimental results show that 200-character fixedsize chunking achieves the highest answer accuracy of 68.8%. While semantic similarity improves as chunk size increases, answer accuracy declines beyond 300 characters, revealing a retrieval– generation discrepancy in which improved retrieval performance does not directly translate into better generation outcomes. Sentence-level chunking exhibits the lowest performance among the evaluated strategies. This study empirically elucidates the gap between retrieval quality and generation performance in Korean extractive question-answering–based RAG systems and provides quantitative design guidelines for effective chunking strategies.
한국어
본 연구는 한국어 검색 증강 생성(RAG) 시스템에서 청킹 전략이 검색 품질과 답변 정확도에 미치는 영향을 분석하 였다. KorQuAD 데이터셋 기반 612개 위키피디아 문서와 1,500개 질의응답 쌍을 활용하여 고정 크기 청킹과 문 장 단위 청킹을 비교 평가하였다. 실험 결과, 200자 고정 청킹이 답변 정확도 68.8%로 가장 우수한 성능을 보였 다. 청크 크기 증가에 따라 의미 유사도는 향상되었으나, 300자 이후 답변 정확도는 감소하여 검색 성능 향상이 생 성 성능으로 직결되지 않는 검색–답변 괴리 현상이 확인되었다. 문장 단위 청킹은 가장 낮은 성능을 기록하였다. 본 연구는 한국어 추출형 질의응답 기반 RAG 시스템에서 검색 품질과 생성 성능 간의 괴리를 실증적으로 규명하 고, 청킹 전략 설계를 위한 정량적 기준을 제시한다.

목차

요약
Abstract
1. 서론
2. 관련연구
2.1 고정 크기 청킹(Fixed-Size Chunking)
2.2 청크 크기에 따른 성능
2.3 문장 단위 분할(Sentence-Aware Chunking)
2.4 모델 및 데이터 특성에 따른 청킹
2.5 청킹 전략의 발전 동향
2.6 논문의 연구 방향
3. 연구 방법
3.1 연구 개요
3.2 데이터셋
3.3 청킹 전략
3.4 시스템 구성
3.5 평가 지표
3.6 실험 설계
4. 실험 결과
4.1 전체 성능 비교
4.2 검색 성능 분석
4.3 의미 유사도 분석
4.4 답변 정확도(Accuracy) 분석
4.5 검색-답변 괴리 현상
4.6 문장 단위 청킹의 한계
5. 결론
Acknowledgement
참고문헌

키워드

검색 증강 생성 청킹 전략 한국어 질의응답 벡터 데이터베이스 KorQuAD1.0 Retrieval-Augmented Generation Chunking Strategy Korean Question Answering Vector Database KorQuAD1.0

저자

  • 이호웅 [ Howoong Lee | 호서대학교 컴퓨터공학부 ]
  • 선복근 [ Bokkeun Sun | 호서대학교 컴퓨터공학부 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
  • 설립연도
    2005
  • 분야
    공학>컴퓨터학
  • 소개
    본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

  • 간행물명
    한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
  • 간기
    격월간
  • pISSN
    1975-681X
  • 수록기간
    2005~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.22 No.1

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장