Earticle

현재 위치 Home

질문 유형과 확신도를 활용한 RAG 호출 최적화 방법
An Efficient RAG Invocation Method Based on Query Type and Confidence

첫 페이지 보기
  • 발행기관
    한국차세대컴퓨팅학회 바로가기
  • 간행물
    한국차세대컴퓨팅학회 논문지 KCI 등재 바로가기
  • 통권
    Vol.21 No.5 (2025.10)바로가기
  • 페이지
    pp.45-56
  • 저자
    김채영, 김미진, 신현학, 이승민, 최재걸
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A475395

원문정보

초록

영어
Retrieval-Augmented Generation (RAG) is widely used to enhance the accuracy of large language models (LLMs) by supplementing their responses with external knowledge. However, the conventional RAG approach, which performs retrieval for every query, can lead to unnecessary latency and computational cost. In this paper, we propose a selective RAG strategy that triggers retrieval only when the confidence score generated by the LLM falls below a predefined threshold. To further address the limitations of relying solely on confidence, we introduce an exception handling mechanism based on specific query traits, such as recency, factual specificity, and definitionseeking intent, which are more likely to require retrieval regardless of confidence. We conduct experiments on two datasets: general knowledge questions from the Natural Questions benchmark and Korean neologism queries that reflect recent linguistic trends. Evaluations are performed using multiple language models, including GPT-4o, GPT-3.5-turbo, and DeepSeek-Chat. Results show that our approach reduces retrieval calls by more than 50% on average while maintaining answer accuracy comparable to the full RAG setting. This demonstrates that combining LLM’s intrinsic confidence estimation with query trait analysis can significantly improve both the efficiency and practicality of RAG systems.
한국어
RAG (Retrieval-Augmented Generation)은 대형 언어 모델(Large Language Model, LLM)의 한계를 보완 하기 위해 외부 지식을 활용하는 방식으로, 질의응답 정확도 향상에 널리 활용되고 있다. 그러나 모든 질문에 대해 일률적으로 검색을 수행하는 기존 RAG 구조는 응답 지연과 불필요한 계산 비용을 초래할 수 있다. 본 연구에서는 언어 모델이 응답과 함께 산출한 확신도(Confidence) 점수를 기반으로, 확신도가 낮은 경우에만 검색을 수행하는 선택적 RAG 호출 전략을 제안한 다. 또한 단순 확신도 기반 판단의 한계를 보완하기 위해, 최신성, 수치 요구, 정 의 요청과 같은 검색 필요성이 높은 질문 유형을 예외적으로 처리하는 메커니즘도 함께 도입하였다. 실험은 일반 상 식 질의(Natural Questions)와 최신 트렌드 기반의 신조어 질의를 포함한 두 가지 데이터셋에서 수행되었으며, GPT와 DeepSeek을 통해 평가되었다. 그 결과, 제안한 전략은 전체 정답률을 유지하면서도 검색 호출 횟수를 평 균 50% 이상 절감하였다. 본 연구는 LLM의 내재적 판단 능력과 질문 특성 분석을 결합함으로써, RAG 시스템의 정확성과 효율성을 동시에 향상시킬 수 있는 실용적 방안을 제시한다.

목차

요약
Abstract
1. 서론
2. 관련 연구
2.1 RAG 응답 평가 연구
2.2 LLM의 확신도 추정 및 질의 기반 제어
3. 제안 방법
3.1 RAG 호출이 필요한 질문 판별 기준
3.2 전체 프로세스 구조
3.3 정확도 산출 방식
4. 실험 결과
4.1 데이터셋과 실험환경
4.2. 확신도 기반 검색 판단 전략의 유효성 분석
4.3 비교 실험 결과
5. 결론
Acknowledgements
참고문헌

키워드

검색 기반 생성 대형 언어 모델 확신도 추정 질의응답 Retrieval-Augmented Generation Large Language Models Confidence Estimation Question Answering

저자

  • 김채영 [ Chaeyoung Kim | 한국외국어대학교 AI데이터융합학부 ]
  • 김미진 [ Mijin Kim | 한국외국어대학교 컴퓨터공학부 ]
  • 신현학 [ Hyunhak Shin | 한국외국어대학교 AI데이터융합학부 ]
  • 이승민 [ Seungmin Lee | 한국외국어대학교 통계학과 ]
  • 최재걸 [ Jaekeol Choi | 한국외국어대학교 AI데이터융합학부 ]

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국차세대컴퓨팅학회 [Korean Institute of Next Generation Computing]
  • 설립연도
    2005
  • 분야
    공학>컴퓨터학
  • 소개
    본 학회는 차세대 PC 및 그 관련분야의 학술활동을 통하여 차세대 PC의 학문 및 기술발전을 도모하고 산업발전 및 국제협력 증진을 목적으로 한다.

간행물

  • 간행물명
    한국차세대컴퓨팅학회 논문지 [THE JOURNAL OF KOREAN INSTITUTE OF NEXT GENERATION COMPUTING]
  • 간기
    격월간
  • pISSN
    1975-681X
  • 수록기간
    2005~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 566 DDC 004

이 권호 내 다른 논문 / 한국차세대컴퓨팅학회 논문지 Vol.21 No.5

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장