Earticle

현재 위치 Home

HyDE 기반 멀티 홉 검색 기법을 활용한 검색 성능 향상 방안
HyDE-Based Multi-Hop Retrieval Approach for Enhancing Retrieval Performance

첫 페이지 보기
  • 발행기관
    한국경영정보학회 바로가기
  • 간행물
    경영정보학연구 KCI 등재 바로가기
  • 통권
    제27권 제2호 (2025.05)바로가기
  • 페이지
    pp.127-148
  • 저자
    김예은, 이재홍, 원상혁, 정우혁, 우지환
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A467788

※ 기관로그인 시 무료 이용이 가능합니다.

5,800원

원문정보

초록

영어
The development of generative AI and large language models (LLMs) is revolutionizing business processes and fostering the adoption of customized LLMs for domain-specific tasks. However, Retrieval-Augmented Generation (RAG) systems designed to address hallucination and domain relevance issues face performance degradation due to error accumulation in handling complex multi-hop queries. This study proposes a framework that integrates the Hypothetical Document Embedding (HyDE) technique into multi-hop retrieval to enhance RAG performance. HyDE generates virtual documents reflecting query intent, improving retrieval accuracy by decomposing complex queries into single-hop queries and applying HyDE iteratively at each step. Experiments were conducted using precision@k, recall@k, F1 score, MAP, MRR, and hit rate as evaluation metrics. The results demonstrate that HyDE-based multi-hop retrieval improves performance across all metrics, with recall increasing by approximately 19.53% and hit rate by 21.21%. These findings confirm the effectiveness of HyDE in enhancing retrieval accuracy for multi-hop search. Future research directions include the development of optimized datasets for multi-hop retrieval and further refinement of virtual document generation strategies.
한국어
생성형 인공지능과 대형 언어 모델(LLM)의 발전은 기업의 업무 프로세스에 혁신을 가져오며 도메인 특화된 업무를 처리하기 위한 맞춤형 LLM 도입을 촉진하고 있다. 그러나 LLM의 환각(hallucination) 문제와 도메인 적합성 부족을 해결하기 위한 Retrieval-Augmented Generation(RAG) 시스템은 검색 단계에서 복잡한 멀티 홉 질의 처리 시 오류 누적 문제로 인해 성능 저하를 겪는다. 본 연구는 이러한 문제를 해결하기 위해 Hypothetical Document Embedding(HyDE) 기법을 멀티 홉 검색에 통합하여 RAG 성능을 개선하는 프레임워크를 제안한다. HyDE 기법은 질의의 의미를 반영한 가상 문서를 생성하여 검색 정확성을 향상시키며, 본 연구에서는 복잡한 질의를 단계적으로 단일 홉 질의로 분해하고 각 단계에서 HyDE를 적용하는 방식을 채택하였다. 실험은 검색 정확도를 측정하기 위해 precision@k, recall@k, F1 score, MAP, MRR, hit rate와 같은 지표를 사용하여 진행되었다. 실험 결과 HyDE 기반 멀티 홉 검색은 모든 지표에서 기존 대비 향상된 성능을 보였으며, 특히 recall이 약 19.53%, hit rate가 21.21% 증가하였다. 이는 HyDE가 멀티 홉 검색에서 검색의 정확성을 높이는 데 효과적임을 보여준다. 향후 연구에서는 멀티 홉 검색에 최적화된 데이터셋 개발, 가상 문서 생성 전략의 개선 등을 시도할 수 있을 것으로 기대된다.

목차

요약
Ⅰ. 서론
Ⅱ. 이론적 배경
2.1 RAG 시스템
2.2 RAG 시스템의 검색 성능 향상 연구
2.3 멀티 홉 검색
2.4 HyDE 기법
2.5 멀티 홉 검색과 HyDE의 결합에 대한 연구의 필요성
2.6 RAG 시스템 성능 평가 방법론
Ⅲ. 제안 방법론
3.1 전체 구조 개요
3.2 단계별 프로세스 설계
3.3 성능 평가 및 분석
Ⅳ. 실험 및 결과
4.1 데이터셋 준비
4.2 실험 설정 및 구성
4.3 평가 지표
4.4 실험 결과
Ⅴ. 결론
5.1 학술적 기여
5.2 실무적 시사점
5.3 한계 및 향후 연구 방향
참고문헌
Abstract

키워드

검색 기반 생성 가설 문서 임베딩 다중 단계 검색 질의 분해 대규모 언어 모델 생성형 인공지능 Retrieval-Augmented Generation (RAG) Hypothetical Document Embedding (HyDE) Multi-hop Retrieval Query Decomposition Large Language Models (LLMs) Generative AI

저자

  • 김예은 [ Ye-eun Kim | 광주과학기술원 전기및전자공학전공 학부생 ]
  • 이재홍 [ Jae-Hong Lee | CJ올리브네트웍스 AI연구소 연구원 ]
  • 원상혁 [ Sang-Huck Won | CJ올리브네트웍스 AI연구소 연구원 ]
  • 정우혁 [ Woo-Hyuk Jung | CJ올리브네트웍스 AI연구소 연구원 ]
  • 우지환 [ Jihwan Woo | AWS Sr. Specialist Partner SA AI/ML ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국경영정보학회 [The Korea Society of Management information Systems]
  • 설립연도
    1989
  • 분야
    사회과학>경영학
  • 소개
    이 학회는 경영정보학의 연구 및 교류를 촉진하고 학문의 발전과 응용에 공헌함을 목적으로 합니다.

간행물

  • 간행물명
    경영정보학연구 [Information Systems Review]
  • 간기
    계간
  • pISSN
    2982-6551
  • eISSN
    2982-6837
  • 수록기간
    1999~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 325 DDC 658

이 권호 내 다른 논문 / 경영정보학연구 제27권 제2호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장