폐쇄망 기반 로컬 RAG에서 RAG 오염 공격 위협 실증 및 프롬프트 기반 방어 효과 분석
Empirical Evaluation of RAG Poisoning Threats and Prompt-Based Defense in a Closed-Network Local RAG System
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 거대 언어 모델(Large Language Model, LLM)이 외부 데이터 베이스를 참조하여 신뢰할 수 있는 응답을 생성하도록 돕는 기술로서, 다양한 분야에서 광범위하게 활용되고 있다. 그리고 국 방과 같이 데이터 보안과 도메인 지식이 중요한 폐쇄망 환경에서는 로컬 LLM과 RAG 기술을 결합한 내부 시스템 구축이 중 요한 대안으로 부상하고 있다. 그러나 RAG는 공격자가 소수의 악성 문서를 주입함으로써 특정 질의에 대해 공격자가 의도한 오답을 생성하도록 유도하는 RAG 오염 공격에 취약하다. 이에 본 연구는 2종의 로컬 LLM과 한국어 위키피디아 데이터세트 를 기반으로 폐쇄망 환경의 RAG를 구현하고, 3가지 유형의 RAG 오염 공격 기법을 설계하여 그 위협을 실증적으로 분석하였 다. 나아가 생성 단계에서 데이터베이스의 허위 가능성을 경고하고 비판적 검증을 유도하는 프롬프트를 적용하여 공격 성공률 을 20% 수준으로 감소시켰다.
영어
Retrieval-Augmented Generation (RAG) is a technique that enables Large Language Models (LLMs) to generate reliable responses by referencing external databases, and is widely used in various fields. In closed-network environments, such as defense area where data security and domain knowledge are crucial, building internal systems that combine local LLM and RAG techniques is emerging as a viable alternative. However, RAG systems are vulnerable to poisoning attacks, wherein an adversary injects a small fraction of malicious documents to manipulate the model into generating intended incorrect responses for specific queries. Consequently, this study implemented a closed-network RAG environment utilizing two local LLMs and Korean Wikipedia datasets, and empirically analyzed the associated threats by designing three distinct RAG poisoning attack techniques. Furthermore, by applying prompts that alert the model to potential inaccuracies within the database and encourage critical verification during the generation phase, the attack success rate was successfully reduced to 20%.
목차
요약 ABSTRACT 1. 서론 2. 관련 연구 3. 실험 설계 3.1 KorQuAD 1.0 / 2.1 데이터세트 3.2 RAG 시스템 구축 3.3 실험에 사용된 로컬 LLM 3.4 RAG 오염 설계 및 문서 주입 3.5 평가지표 4. 실험 결과 및 분석 4.1 실험 환경 및 파라미터 설정 4.2 Llama 3.1 결과 분석 4.3 GPT-OSS 결과 분석 4.4 방어 기법 적용 결과 4.5 결과 분석 5. 결론 참고문헌