This study presents a systematic evaluation of security vulnerabilities in Retrieval-Augmented Generation (RAG)–based large language models when subjected to various types of jailbreak attacks. Across 135 trials, the RAG system exhibited strong robustness against universal jailbreak prompts, achieving a low success rate of 12%, significantly lower than typical LLM performance under similar attacks. In contrast, type-specific attacks achieved a 50% success rate, revealing structural weaknesses inherent to the RAG architecture. The Loophole Exploitation attack reached a 100% success rate, indicating that RAG models are particularly vulnerable when handling absent or unstated information in documents. Additionally, the Research Pretext strategy achieved a 60% success rate, suggesting that context framed as research or security evaluation can effectively bypass safety filters. These findings highlight a dual security nature in RAG systems—robust against general jailbreak patterns yet highly susceptible to domain-targeted attacks—providing important insights for future reliability assessments of document-grounded LLMs.
한국어
본 연구는 RAG(Retrieval-Augmented Generation) 기반 LLM이 다양한 jailbreak 공격에 대해 어떠한 보안 특성을 보이는지를 체계적으로 평가하였다. 총 135회의 실험을 수행한 결과, Universal jailbreak 프롬프트의 성 공률은 12%로 일반 LLM 대비 낮아 강한 방어성을 보였다. 그러나 type-specific 공격의 성공률은 50%에 달해 RAG 특유의 구조적 취약성이 확인되었다. 특히 ‘규정 허점 악용’ 공격은 100% 성공률을 보이며 RAG가 문서에 존재하지 않는 정보 처리(absence reasoning)에 취약함을 보여주었다. 또한 Research Pretext 공격은 60%의 성공률을 기록해, 연 구·보안 목적을 가장한 요청이 RAG 안전 필터를 우회할 수 있음을 나타냈다. 이 결과는 RAG 시스템이 일반적인 jailbreak 전략에는 비교적 강하지만, 도메인 특화된 공격에는 쉽게 노출될 수 있는 이중적 보안 특성을 갖는다는 점을 시사한다.
목차
요약 Abstract 1. 서론 2. 관련 연구 2.1 LLM 보안 및 안전성 2.2 Jailbreak 공격 연구 2.3 RAG 시스템 보안 2.4 LLM-as-Judge 평가 3. 방법론 3.1 RAG 시스템 구축 3.2 Jailbreak 프롬프트 설계 3.3 GPT-as-Judge 평가 시스템 3.4 평가 지표 4. 실험결과 4.1 RQ1: Universal Jailbreak 프롬프트 4.2 RQ2: Type-Specific 프롬프트 4.3 전체 결과 종합 5. 결론 REFERENCES