의사결정 지원용 AI 기반 군사 시스템에 적용되는 한국어 사전 학습 언어 모델에 대한 백도어 공격 연구

안서경; 이수진

216.73.217.141

개인회원 가입

개인회원
기관회원

개인회원 로그인

개인회원 가입으로 더욱 편리하게 이용하세요. 개인회원 가입

아이디/비밀번호를 잊으셨나요? 아이디/비밀번호 찾기

기관회원 로그인

소속기관에서 검색되지 않는 기관은 무료원문다운이 불가능합니다. 개인회원 가입 후 유료구매를 하시거나 소속기관 도서관에 이용문의해 주세요.

Home

[국방보안]

의사결정 지원용 AI 기반 군사 시스템에 적용되는 한국어 사전 학습 언어 모델에 대한 백도어 공격 연구
Backdoor Attacks on Korean Pre-trained Language Models Applied to AI-based Military Systems for Decision-Making Support

발행기관

한국융합보안학회 바로가기
간행물

융합보안논문지 KCI 등재 바로가기
통권

제25권 제4호 (2025.10)바로가기
페이지

pp.21-30
저자

안서경, 이수진
언어

한국어(KOR)
URL

https://www.earticle.net/Article/A475363

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

원문정보

초록

영어: The success of AI-based military systems, such as AI military staff and Kill-Web Matching (KWM), that assist in decision-making hinges on the reliability of Korean pre-trained language models (PLMs). However, PLMs are vulnerable to backdoor attacks, which intentionally contaminate training data to create vulnerabilities in the model. This paper aims to experimentally validate the effectiveness of backdoor attacks based on the insertion position and type of trigger words on two representative Korean PLMs, KoBERT and KoELECTRA. To this end, we systematically measured the effects of model architecture, poisoning rate, and trigger type (natural vs. anomalous) on attack efficiency for both binary (NSMC) and multi-class (KLUE-TC) classification tasks. The experimental results demonstrate that a high Attack Success Rate (ASR) of over 95% can be achieved with less than 1% data poisoning, while the classification performance on original data remains almost undegraded, confirming the high stealthiness of the attacks. Furthermore, an anomalous trigger (‘attack’), which is out-of-context, achieved a significantly higher ASR at the same poisoning rate than a natural trigger (‘really’), confirming that the Korean PLMs are more sensitive to statistically rare patterns.

한국어: AI 전투참모 및 AI 기반 지휘결심지원체계 등 의사결정을 보좌하기 위한 AI 기반 군사 시스템의 성공 여부는 한국어 사전 학습 언어 모델(Pre-trained Language Model, PLM)의 신뢰성에 달려있다. 그러나 PLM은 의도적으로 학습 데이터를 오염시 켜 모델에 취약점을 생성하는 백도어 공격에 취약하다. 이에 본 연구는 대표적인 한국어 PLM인 KoBERT 및 KoELECTRA 를 대상으로 트리거 단어의 삽입 위치와 유형을 기반으로 한 백도어 공격의 유효성을 실험적으로 검증하였다. 이를 위해 이진 분류(NSMC)와 다중분류(KLUE-TC) 데이터세트에 대해 모델 아키텍처, 오염 비율, 그리고 트리거 유형(자연스러움/이질적임) 이 공격 효율성에 미치는 영향을 체계적으로 측정하였다. 실험 결과 1% 미만의 데이터 오염만으로도 95% 이상의 높은 공격 성공률을 달성하였으며, 원본 데이터에 대한 분류 성능은 거의 저하되지 않아 백도어 공격의 높은 은닉성 또한 확인하였다. 그리고 문맥과 무관한 이질적인 트리거(‘공격’)는 데이터에 자연스럽게 존재하는 트리거(‘정말’)보다 동일한 오염 비율에서 월 등히 높은 공격 성공률을 기록하여 한국어 PLM이 통계적으로 희귀한 패턴에 더 민감하게 반응함을 확인하였다.

요약
ABSTRACT
1. 서론
2. 관련 연구
3. 실험 설계
3.1 데이터세트
3.2 공격 대상 모델
3.3 백도어 샘플 생성
3.4 학습 및 평가 환경 설정
4. 실험 결과 및 분석
4.1 기준 성능 평가
4.2 KLUE-TC 결과 및 분석
4.3 NSMC 결과 및 분석
5. 논의
5.1 본 연구의 기여
5.2 오염 비율의 영향
5.3 트리거 위치
5.4 트리거 유형의 효과
5.5 원본 데이터세트에 대한 분류 정확도
5.6 국방 분야 연구의 필요성
6. 결론
참고문헌

키워드

AI-based Military System Backdoor Attack Trigger Position Korean Pre-trained Language Model

저자

안서경 [ Seo-Kyeong An | 국방대학교 사이버‧컴퓨터공학 석사과정 ] 주저자
이수진 [ Soo-Jin Lee | 국방대학교 사이버‧컴퓨터공학 교수 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

간행물 정보

발행기관

발행기관명

한국융합보안학회 [Korea Information Assurance Society]
설립연도
2001
분야
공학>전자/정보통신공학
소개
본 학회는 사이버테러 및 정보전에 관한 학문연구ㆍ기술 개발ㆍ기반 구축을 도모하고 국내ㆍ외 관계기관과 학술교류와 정보교환을 통하여 회원 상호간의 전문지식을 배양하고, 궁극적으로는 국가 중요 정보기반구조를 보호함을 그 목적으로 한다.

간행물

간행물명

융합보안논문지 [Jouranl of Information and Security]
간기
연5회
pISSN
1598-7329
수록기간
2001~2026
등재여부
KCI 등재
십진분류
KDC 005 DDC 005

이 권호 내 다른 논문 / 융합보안논문지 제25권 제4호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

출처 : 네이버학술정보

0개의 논문이 장바구니에 담겼습니다.

페이지 저장

소속기관 조회

이용자님의 소속기관(단체)이 서비스에 가입되어 있는지 확인해 보십시오.
기관회원에 소속되어 있는 이용자는 원문을 무료로 이용할 수 있습니다.

상호: 주식회사 학술교육원 I 대표: 노방용 I 사업자등록번호: 122-81-88227 I 통신판매업신고번호: 제2008-인천부평-00176호 I 정보보호책임자: 이두영
주소: (21319)인천광역시 부평구 영성중로 50 미래타워 701호 I 전화: 0505-555-0740 I 팩스: 0505-555-0741 I 이메일: earticle@earticle.net

음성지원 및 돋보기 서비스

Earticle

의사결정 지원용 AI 기반 군사 시스템에 적용되는 한국어 사전 학습 언어 모델에 대한 백도어 공격 연구
Backdoor Attacks on Korean Pre-trained Language Models Applied to AI-based Military Systems for Decision-Making Support

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 융합보안논문지 제25권 제4호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

Earticle

의사결정 지원용 AI 기반 군사 시스템에 적용되는 한국어 사전 학습 언어 모델에 대한 백도어 공격 연구 Backdoor Attacks on Korean Pre-trained Language Models Applied to AI-based Military Systems for Decision-Making Support

원문정보

초록

목차

키워드

저자

참고문헌

간행물 정보

발행기관

간행물

이 권호 내 다른 논문 / 융합보안논문지 제25권 제4호

피인용수 : 0건 (자료제공 : 네이버학술정보)

함께 이용한 논문 이 논문을 다운로드한 분들이 이용한 다른 논문입니다.

의사결정 지원용 AI 기반 군사 시스템에 적용되는 한국어 사전 학습 언어 모델에 대한 백도어 공격 연구
Backdoor Attacks on Korean Pre-trained Language Models Applied to AI-based Military Systems for Decision-Making Support