Earticle

다운로드

폐쇄망 기반 로컬 RAG에서 RAG 오염 공격 위협 실증 및 프롬프트 기반 방어 효과 분석
Empirical Evaluation of RAG Poisoning Threats and Prompt-Based Defense in a Closed-Network Local RAG System

원문정보

초록

한국어
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 거대 언어 모델(Large Language Model, LLM)이 외부 데이터 베이스를 참조하여 신뢰할 수 있는 응답을 생성하도록 돕는 기술로서, 다양한 분야에서 광범위하게 활용되고 있다. 그리고 국 방과 같이 데이터 보안과 도메인 지식이 중요한 폐쇄망 환경에서는 로컬 LLM과 RAG 기술을 결합한 내부 시스템 구축이 중 요한 대안으로 부상하고 있다. 그러나 RAG는 공격자가 소수의 악성 문서를 주입함으로써 특정 질의에 대해 공격자가 의도한 오답을 생성하도록 유도하는 RAG 오염 공격에 취약하다. 이에 본 연구는 2종의 로컬 LLM과 한국어 위키피디아 데이터세트 를 기반으로 폐쇄망 환경의 RAG를 구현하고, 3가지 유형의 RAG 오염 공격 기법을 설계하여 그 위협을 실증적으로 분석하였 다. 나아가 생성 단계에서 데이터베이스의 허위 가능성을 경고하고 비판적 검증을 유도하는 프롬프트를 적용하여 공격 성공률 을 20% 수준으로 감소시켰다.
영어
Retrieval-Augmented Generation (RAG) is a technique that enables Large Language Models (LLMs) to generate reliable responses by referencing external databases, and is widely used in various fields. In closed-network environments, such as defense area where data security and domain knowledge are crucial, building internal systems that combine local LLM and RAG techniques is emerging as a viable alternative. However, RAG systems are vulnerable to poisoning attacks, wherein an adversary injects a small fraction of malicious documents to manipulate the model into generating intended incorrect responses for specific queries. Consequently, this study implemented a closed-network RAG environment utilizing two local LLMs and Korean Wikipedia datasets, and empirically analyzed the associated threats by designing three distinct RAG poisoning attack techniques. Furthermore, by applying prompts that alert the model to potential inaccuracies within the database and encourage critical verification during the generation phase, the attack success rate was successfully reduced to 20%.

목차

요약
ABSTRACT
1. 서론
2. 관련 연구
3. 실험 설계
3.1 KorQuAD 1.0 / 2.1 데이터세트
3.2 RAG 시스템 구축
3.3 실험에 사용된 로컬 LLM
3.4 RAG 오염 설계 및 문서 주입
3.5 평가지표
4. 실험 결과 및 분석
4.1 실험 환경 및 파라미터 설정
4.2 Llama 3.1 결과 분석
4.3 GPT-OSS 결과 분석
4.4 방어 기법 적용 결과
4.5 결과 분석
5. 결론
참고문헌

저자

  • 김동훈 [ Dong-Hoon Kim | 육군3사관학교 전자공학과 강사 ] 주저자
  • 송정환 [ Jeong-Hwan Song | 육군본부 시험평가단 시험평가장교 ] 공동저자
  • 이수진 [ Soo-Jin Lee | 국방대학교 사이버‧컴퓨터공학과 교수 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

    간행물 정보

    • 간행물
      융합보안논문지 [Jouranl of Information and Security]
    • 간기
      연5회
    • pISSN
      1598-7329
    • 수록기간
      2001~2026
    • 등재여부
      KCI 등재
    • 십진분류
      KDC 005 DDC 005