Earticle

현재 위치 Home

폐쇄망 기반 로컬 RAG에서 RAG 오염 공격 위협 실증 및 프롬프트 기반 방어 효과 분석
Empirical Evaluation of RAG Poisoning Threats and Prompt-Based Defense in a Closed-Network Local RAG System

첫 페이지 보기
  • 발행기관
    한국융합보안학회 바로가기
  • 간행물
    융합보안논문지 KCI 등재 바로가기
  • 통권
    제26권 제2호 (2026.03)바로가기
  • 페이지
    pp.105-113
  • 저자
    김동훈, 송정환, 이수진
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A482853

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어
Retrieval-Augmented Generation (RAG) is a technique that enables Large Language Models (LLMs) to generate reliable responses by referencing external databases, and is widely used in various fields. In closed-network environments, such as defense area where data security and domain knowledge are crucial, building internal systems that combine local LLM and RAG techniques is emerging as a viable alternative. However, RAG systems are vulnerable to poisoning attacks, wherein an adversary injects a small fraction of malicious documents to manipulate the model into generating intended incorrect responses for specific queries. Consequently, this study implemented a closed-network RAG environment utilizing two local LLMs and Korean Wikipedia datasets, and empirically analyzed the associated threats by designing three distinct RAG poisoning attack techniques. Furthermore, by applying prompts that alert the model to potential inaccuracies within the database and encourage critical verification during the generation phase, the attack success rate was successfully reduced to 20%.
한국어
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 거대 언어 모델(Large Language Model, LLM)이 외부 데이터 베이스를 참조하여 신뢰할 수 있는 응답을 생성하도록 돕는 기술로서, 다양한 분야에서 광범위하게 활용되고 있다. 그리고 국 방과 같이 데이터 보안과 도메인 지식이 중요한 폐쇄망 환경에서는 로컬 LLM과 RAG 기술을 결합한 내부 시스템 구축이 중 요한 대안으로 부상하고 있다. 그러나 RAG는 공격자가 소수의 악성 문서를 주입함으로써 특정 질의에 대해 공격자가 의도한 오답을 생성하도록 유도하는 RAG 오염 공격에 취약하다. 이에 본 연구는 2종의 로컬 LLM과 한국어 위키피디아 데이터세트 를 기반으로 폐쇄망 환경의 RAG를 구현하고, 3가지 유형의 RAG 오염 공격 기법을 설계하여 그 위협을 실증적으로 분석하였 다. 나아가 생성 단계에서 데이터베이스의 허위 가능성을 경고하고 비판적 검증을 유도하는 프롬프트를 적용하여 공격 성공률 을 20% 수준으로 감소시켰다.

목차

요약
ABSTRACT
1. 서론
2. 관련 연구
3. 실험 설계
3.1 KorQuAD 1.0 / 2.1 데이터세트
3.2 RAG 시스템 구축
3.3 실험에 사용된 로컬 LLM
3.4 RAG 오염 설계 및 문서 주입
3.5 평가지표
4. 실험 결과 및 분석
4.1 실험 환경 및 파라미터 설정
4.2 Llama 3.1 결과 분석
4.3 GPT-OSS 결과 분석
4.4 방어 기법 적용 결과
4.5 결과 분석
5. 결론
참고문헌

키워드

Retrieval-Augmented Generation RAG Poisoning Large Language Model Closed-Network

저자

  • 김동훈 [ Dong-Hoon Kim | 육군3사관학교 전자공학과 강사 ] 주저자
  • 송정환 [ Jeong-Hwan Song | 육군본부 시험평가단 시험평가장교 ] 공동저자
  • 이수진 [ Soo-Jin Lee | 국방대학교 사이버‧컴퓨터공학과 교수 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국융합보안학회 [Korea Information Assurance Society]
  • 설립연도
    2001
  • 분야
    공학>전자/정보통신공학
  • 소개
    본 학회는 사이버테러 및 정보전에 관한 학문연구ㆍ기술 개발ㆍ기반 구축을 도모하고 국내ㆍ외 관계기관과 학술교류와 정보교환을 통하여 회원 상호간의 전문지식을 배양하고, 궁극적으로는 국가 중요 정보기반구조를 보호함을 그 목적으로 한다.

간행물

  • 간행물명
    융합보안논문지 [Jouranl of Information and Security]
  • 간기
    연5회
  • pISSN
    1598-7329
  • 수록기간
    2001~2026
  • 등재여부
    KCI 등재
  • 십진분류
    KDC 005 DDC 005

이 권호 내 다른 논문 / 융합보안논문지 제26권 제2호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장