This study focused on experiments involving poisoning-based adversarial attacks. Poisoning-based AI image recognition attacks modify input images by utilising the gradient of the model's loss function and poisoning. In this study, we conducted attack experiments targeting poisoning-based adversarial attack methods such as gradient matching, sleeper agent, meta poison, gradient inversion, and gradient constrain in the RestNet18 environment, and verified the risk of attacks through performance evaluation. We performed attack experiments on five adversarial attack models and confirmed the results using performance metrics such as PSNR and SSIM. The experimental results reveal the characteristics of each attack method: Gradient Matching causes overall performance degradation, Sleeper Agent influences misclassification through triggers, Meta Poison targets specific parts of the image, Gradient Inversion compromises the privacy of model inputs, and Gradient Constrained significantly reduces recognition accuracy.
한국어
본 연구에서는 poisoning 기반의 적대적 공격에 초점을 맞추어 실험하였다. Poisoning 기반의 AI 이미지 인식 공격은 모델의 손실 함수의 기울기와 poisoning을 이용하여 입력 이미지를 수정한다. 본 연구에서는 RestNet18 환경 에서 poisoning 기반의 적대적 공격 방법들인 gradient matching, sleeper agent, meta poison, gradient inversion, gradient constrain 기법을 대상으로 공격 실험을 수행하고 성능 검정을 통해 공격의 위험성을 확인한다. 본 연구에서는 적대적 공격 모델 5개를 대상으로 공격 실험을 수행하였고 PSNR, SSIM 등의 성능 지표를 통해 결과를 확인하였다. 연구 결과에서는 실험 결과를 통해 전체 성능 저하를 일으키는 Gradient Matching, 트리거를 통해 오분류 영향을 주는 Sleeper Agent, 일부에 타깃 공격을 하는 Meta Poison, 모델 입력의 프라이버시를 침해하는 Gradient Inversion, 인식 정확도를 크게 저하시키는 Gradient Constrained의 특성을 확인할 수 있다.
목차
요약 Abstract I. 서론 II. AI 이미지 적대적 공격 모델들 1. 관련 연구 2. 공격 성능 개선을 위한 파라미터 조정 III. Poison 기반 공격 모델들의 실험과 결과 1. 공격 모델의 하이퍼 파라미터 조정 2. Poison 공격 모델의 실험과 평가 IV. 결론 References