본 연구는 기업 내부 정보 유출의 주요 경로 중 하나인 웹메일을 통해 발생할 수 있는 민감정보 반출 행위를 사전에 탐지 하기 위한 머신러닝 기반 분석 모델을 제안한다. 실제 방산 및 차량 부품 제조업체의 웹메일 로그 데이터를 기반으로, 조직 보 안 정책 및 업무 흐름을 반영한 도메인 특화형 피처를 설계하였으며, 심각한 클래스 불균형 문제를 해결하기 위해 SMOTE 기법을 적용하였다. 탐지 모델로는 랜덤 포레스트, LightGBM, 로지스틱 회귀를 비교하였고, 정밀도, 재현율, F1-score를 중심 으로 탐지 성능을 평가하였다. 실험 결과, 모든 모델이 재현율 0.94 이상의 탐지 성능을 나타냈으며, 랜덤 포레스트는 해석 가 능성과 안정적인 성능 측면에서 가장 우수한 결과를 보였다. 본 연구는 고비용 상용 솔루션 없이도 기업 맞춤형 보안 탐지 체 계를 구축할 수 있는 실용적 접근을 제시하며, 다양한 산업 현장에서의 선제적 보안 대응 역량 강화에 기여할 수 있다.
영어
This study proposes a machine learning-based detection model to proactively identify potential information leakage incidents via corporate webmail systems. Using real-world email log data collected from a defense and automotive parts manufacturing company, domain-specific features were engineered based on the organization’s security policies and operational characteristics. To address the extreme class imbalance in the dataset, the Synthetic Minority Over-sampling Technique (SMOTE) was applied. Three machine learning models—Random Forest, LightGBM, and Logistic Regression— were trained and evaluated using precision, recall, and F1-score. Experimental results showed that all models achieved over 0.94 recall, with Random Forest demonstrating superior performance in both interpretability and stability. This research presents a practical, lightweight detection framework that can be deployed in real-world environments without costly commercial solutions, contributing to enhanced proactive security in various industrial contexts.
목차
요약 ABSTRACT 1. 서론 2. 이론적 배경 2.1 내부 정보 유출과 웹메일 보안 위협 2.2 머신러닝 기반 이상 행위 탐지 기법 2.3 보안 탐지 환경에서의 클래스 불균형과 데이터 증강 2.4 선행연구 고찰 및 본 연구의 차별성 3. 연구 방법 3.1 데이터 수집 및 전처리 3.2 클래스 불균형 처리 3.3 머신러닝 모델 설계 및 학습 3.4 모델 평가 및 해석 3.5 종합 분석 4. 결론 및 향후 연구 방향 참고문헌