RAG 시스템에서 고정 크기 및 문장 단위 청킹 전략의 평가 : KorQuAD1.0 데이터셋 활용 한국어 사례

이호웅; 선복근

216.73.217.87

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

RAG 시스템에서 고정 크기 및 문장 단위 청킹 전략의 평가 : KorQuAD1.0 데이터셋 활용 한국어 사례
Evaluating Fixed-size and Sentence-based Chunking Strategies for RAG System : A Korean Case on KorQuAD1.0

발행기관

한국차세대컴퓨팅학회 바로가기
간행물

한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
통권

Vol.22 No.1 (2026.02)바로가기
페이지

pp.84-96
저자

이호웅, 선복근
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A480833

원문정보

초록

영어: This study analyzes the impact of chunking strategies on retrieval quality and answer accuracy in Korean retrieval-augmented generation (RAG) systems. Using 612 Wikipedia documents from the KorQuAD dataset and 1,500 question–answer pairs, fixed-size chunking strategies and sentencelevel chunking were comparatively evaluated. Experimental results show that 200-character fixedsize chunking achieves the highest answer accuracy of 68.8%. While semantic similarity improves as chunk size increases, answer accuracy declines beyond 300 characters, revealing a retrieval– generation discrepancy in which improved retrieval performance does not directly translate into better generation outcomes. Sentence-level chunking exhibits the lowest performance among the evaluated strategies. This study empirically elucidates the gap between retrieval quality and generation performance in Korean extractive question-answering–based RAG systems and provides quantitative design guidelines for effective chunking strategies.

한국어: 본 연구는 한국어 검색 증강 생성(RAG) 시스템에서 청킹 전략이 검색 품질과 답변 정확도에 미치는 영향을 분석하 였다. KorQuAD 데이터셋 기반 612개 위키피디아 문서와 1,500개 질의응답 쌍을 활용하여 고정 크기 청킹과 문 장 단위 청킹을 비교 평가하였다. 실험 결과, 200자 고정 청킹이 답변 정확도 68.8%로 가장 우수한 성능을 보였 다. 청크 크기 증가에 따라 의미 유사도는 향상되었으나, 300자 이후 답변 정확도는 감소하여 검색 성능 향상이 생 성 성능으로 직결되지 않는 검색–답변 괴리 현상이 확인되었다. 문장 단위 청킹은 가장 낮은 성능을 기록하였다. 본 연구는 한국어 추출형 질의응답 기반 RAG 시스템에서 검색 품질과 생성 성능 간의 괴리를 실증적으로 규명하 고, 청킹 전략 설계를 위한 정량적 기준을 제시한다.

요약
Abstract
1. 서론
2. 관련연구
2.1 고정 크기 청킹(Fixed-Size Chunking)
2.2 청크 크기에 따른 성능
2.3 문장 단위 분할(Sentence-Aware Chunking)
2.4 모델 및 데이터 특성에 따른 청킹
2.5 청킹 전략의 발전 동향
2.6 논문의 연구 방향
3. 연구 방법
3.1 연구 개요
3.2 데이터셋
3.3 청킹 전략
3.4 시스템 구성
3.5 평가 지표
3.6 실험 설계
4. 실험 결과
4.1 전체 성능 비교
4.2 검색 성능 분석
4.3 의미 유사도 분석
4.4 답변 정확도(Accuracy) 분석
4.5 검색-답변 괴리 현상
4.6 문장 단위 청킹의 한계
5. 결론
Acknowledgement
참고문헌

키워드

검색 증강 생성 청킹 전략 한국어 질의응답 벡터 데이터베이스 KorQuAD1.0 Retrieval-Augmented Generation Chunking Strategy Korean Question Answering Vector Database KorQuAD1.0

저자

이호웅 [ Howoong Lee | 호서대학교 컴퓨터공학부 ]
선복근 [ Bokkeun Sun | 호서대학교 컴퓨터공학부 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
설립연도
2005
분야
공학>컴퓨터학
소개
본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

간행물명

한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
간기
격월간
pISSN
1975-681X
수록기간
2005~2026
등재여부
KCI 등재
십진분류
KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.22 No.1

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

RAG 시스템에서 고정 크기 및 문장 단위 청킹 전략의 평가 : KorQuAD1.0 데이터셋 활용 한국어 사례
Evaluating Fixed-size and Sentence-based Chunking Strategies for RAG System : A Korean Case on KorQuAD1.0

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.22 No.1

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

RAG 시스템에서 고정 크기 및 문장 단위 청킹 전략의 평가 : KorQuAD1.0 데이터셋 활용 한국어 사례 Evaluating Fixed-size and Sentence-based Chunking Strategies for RAG System : A Korean Case on KorQuAD1.0

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.22 No.1

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

RAG 시스템에서 고정 크기 및 문장 단위 청킹 전략의 평가 : KorQuAD1.0 데이터셋 활용 한국어 사례
Evaluating Fixed-size and Sentence-based Chunking Strategies for RAG System : A Korean Case on KorQuAD1.0