최근 급격히 증가하고 있는 금융 사기 거래는 막대한 경제적 손실을 일으키며, 사기를 방지하기 위해 사용되는 데이터는 정상 대비 극도로 적은 이상거래로 인해 효과적인 탐지가 어려운 불균형 데이터 문제가 화두 되고 있다. 본 연구는 이러한 불균형한 데이터특성의 한계를 극복하기 위해 VAE-GAN(Variational Autoencoder–Generative Adversarial Network) 과 Semi-Hard Example Mining(이하 SHEM) 기법을 결합하여, 이상거래 데이터의 품질을 유지하면서 실제로 이상거래이지만 정상 거래로 판단하는 거짓 음성(False Negative, 이하 FN)을 줄이는 모델을 제안한다. 먼저, VAE-GAN을 통해 실제 거래와 유사한 소수 클래스 합성 데이터를 생성하고, Semi-Hard Negative Mining으로 분류기가 헷갈리기 쉬운 사례를 집중적으로 재 생성한다. 이를 신용카드 사기 데이터셋에 적용한 결과, 기존 보간 기반 오버샘플링 기법(SMOTE, Borderline-SMOTE, ADASYN)과 기존 VAE-GAN 증강 대비 Precision, Recall, F1, F2 Score 등 주요 지표가 전반적으로 향상됨을 확인하였다. 본 연구는 금융권 FDS(Fraud Detection System)에서 불균형 데이터 문제를 완화하고 탐지 성능을 극대화하는 데 기여할 것으로 기대한다.
목차
Abstract Introduction Related Works 2.1 이상거래 탐지 시스템(FDS)의 개념 및 동향 2.2 불균형 데이터(Imbalanced Data) 문제 2.3 기존 불균형 데이터 해결책 2.4 Semi- Hard Example Mining(SHEM) 기법 Methods 3.1 데이터셋 소개 및 전처리 3.2 기존 증강 기법 구현 3.3 제안 기법: VAE-GAN + Semi-Hard Example Mining 3.4 모델 학습 및 평가 절차 Results 4.1 모델별 성능 비교 4.2 Semi-Hard Example Mining 효과 4.3 XGBoost의 설명 가능성 Conclusion and Implications 5.1 연구 결과 요약 5.2 학술적 시사점 5.3 실무적 시사점 5.4 한계점 및 개선 방향 References
키워드
Fraud Detection System (FDS)Imbalanced DataOversampling TechniqueVAE-GANSemi-Hard Example Mining (SHEM)