요약
ABSTRACT
1. 서론
2. 관련연구
2.1 LLM 정렬과 안전성
2.2 Prompt Injection과 탈옥 공격 연구
2.3 LLM 필터링 메커니즘과 한계
2.4 Paraphrase 기반 우회 공격
3. 제안방법론
3.1 공격 프롬프트 세트 구성
3.2 모델 입력 및 응답 수집
3.3 탈옥 성공 판단 기준
4. 실험 환경 및 실험 결과
4.1 실험에 사용된 프롬프트 데이터셋
4.2 사용된 언어 모델
4.3 탈옥 공격 실험을 위한 하이퍼파라미터
4.4 실험결과
5. 토론
5.1 공격 모델의 가정과 적용 가능성
5.2 공격 수행 시 고려할 점
5.3 시사점
6. 결론
참고문헌