Earticle

현재 위치 Home

RAG 기반 시스템의 신뢰성과 Jailbreaking 보안 취약성 분석
Reliability of RAG Systems and an Analysis of Jailbreaking Security Vulnerabilities

첫 페이지 보기
  • 발행기관
    한국융합학회 바로가기
  • 간행물
    미래기술융합논문지 KCI 등재후보 바로가기
  • 통권
    제5권 제1호 (2026.02)바로가기
  • 페이지
    pp.209-214
  • 저자
    양혜지, 오하영
  • 언어
    한국어(KOR)
  • URL
    https://www.earticle.net/Article/A483511

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어
This study presents a systematic evaluation of security vulnerabilities in Retrieval-Augmented Generation (RAG)–based large language models when subjected to various types of jailbreak attacks. Across 135 trials, the RAG system exhibited strong robustness against universal jailbreak prompts, achieving a low success rate of 12%, significantly lower than typical LLM performance under similar attacks. In contrast, type-specific attacks achieved a 50% success rate, revealing structural weaknesses inherent to the RAG architecture. The Loophole Exploitation attack reached a 100% success rate, indicating that RAG models are particularly vulnerable when handling absent or unstated information in documents. Additionally, the Research Pretext strategy achieved a 60% success rate, suggesting that context framed as research or security evaluation can effectively bypass safety filters. These findings highlight a dual security nature in RAG systems—robust against general jailbreak patterns yet highly susceptible to domain-targeted attacks—providing important insights for future reliability assessments of document-grounded LLMs.
한국어
본 연구는 RAG(Retrieval-Augmented Generation) 기반 LLM이 다양한 jailbreak 공격에 대해 어떠한 보안 특성을 보이는지를 체계적으로 평가하였다. 총 135회의 실험을 수행한 결과, Universal jailbreak 프롬프트의 성 공률은 12%로 일반 LLM 대비 낮아 강한 방어성을 보였다. 그러나 type-specific 공격의 성공률은 50%에 달해 RAG 특유의 구조적 취약성이 확인되었다. 특히 ‘규정 허점 악용’ 공격은 100% 성공률을 보이며 RAG가 문서에 존재하지 않는 정보 처리(absence reasoning)에 취약함을 보여주었다. 또한 Research Pretext 공격은 60%의 성공률을 기록해, 연 구·보안 목적을 가장한 요청이 RAG 안전 필터를 우회할 수 있음을 나타냈다. 이 결과는 RAG 시스템이 일반적인 jailbreak 전략에는 비교적 강하지만, 도메인 특화된 공격에는 쉽게 노출될 수 있는 이중적 보안 특성을 갖는다는 점을 시사한다.

목차

요약
Abstract
1. 서론
2. 관련 연구
2.1 LLM 보안 및 안전성
2.2 Jailbreak 공격 연구
2.3 RAG 시스템 보안
2.4 LLM-as-Judge 평가
3. 방법론
3.1 RAG 시스템 구축
3.2 Jailbreak 프롬프트 설계
3.3 GPT-as-Judge 평가 시스템
3.4 평가 지표
4. 실험결과
4.1 RQ1: Universal Jailbreak 프롬프트
4.2 RQ2: Type-Specific 프롬프트
4.3 전체 결과 종합
5. 결론
REFERENCES

키워드

RAG 보안 취약성 Jailbreaking LLM 안전성 Loophole Exploitation 규정 허점 악용 보안 평가 RAG Security Vulnerability Jailbreaking LLM Safety Loophole Exploitation Security Evaluation

저자

  • 양혜지 [ Hye-Ji Yang | 성균관대학교 인공지능융합학과 석사 ]
  • 오하영 [ Ha-Young Oh | 성균관대학교 인공지능융합학과 교수 ] Corresponding Author

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

  • 발행기관명
    한국융합학회 [Korea Convergence Society]
  • 설립연도
    2011
  • 분야
    복합학>학제간연구
  • 소개
    본회는 융합학문 및 융합기술을 교류를 통한 학문기술의 확대․발전․보급 및 기술개발 전략에 과학적으로 접근하여 융합학문 및 기술을 더욱 활성화하고, 회원 상호간의 정보 교류를 도모함으로써 지역과 나라발전에 기여함을 목적으로 한다.

간행물

  • 간행물명
    미래기술융합논문지
  • 간기
    격월간
  • eISSN
    2951-2468
  • 수록기간
    2022~2026
  • 등재여부
    KCI 등재후보
  • 십진분류
    KDC 530 DDC 620

이 권호 내 다른 논문 / 미래기술융합논문지 제5권 제1호

    피인용수 : 0(자료제공 : 네이버학술정보)

    함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

      페이지 저장