전술 C4I 네트워크의 자율 격리 의사결정 최적화를 위한 네트워크 위상 인지 기반 Maskable PPO
Network Topology-Aware Maskable PPO for Autonomous Quarantine Decision Optimization in Tactical C4I Networks
Modern tactical C4I systems often exhibit a scale-free, hub-centered network structure, which is highly vulnerable to rapid cyber-threat propagation when critical hub nodes are compromised. To mitigate these topological vulnerabilities and enhance Headquarters (HQ) survivability, this paper proposes a Maskable PPO-based autonomous quarantine decision optimization agent. By recognizing network topology and employing action masking to eliminate invalid actions, the proposed agent improves learning convergence stability and exploration efficiency. Simulation results show that the proposed method achieves approximately 47% higher defense efficiency than conventional centrality-based heuristics. In addition, the study identifies a phase transition phenomenon in which the win rate drops sharply from 92% to 10% at an infection probability of 15%, thereby quantitatively deriving the operational performance limit for the standalone use of the proposed agent.
한국어
전술 C4I 네트워크를 허브(지휘소·중계소) 중심의 비 균일 토폴로지로 가정할 경우, 핵심 허브 침해가 전파 경로의 급격한 확대(감염 확산)로 이어질 위험이 커진다. 본 논문에서는 이러한 위상학적 취약성을 극복하고 지휘 본부의 생존 가능성을 높 이기 위해 Maskable PPO 기반의 자율 격리 의사결정 최적화 에이전트를 제안한다. 제안된 에이전트는 네트워크의 위상학적 특징을 인지하고 액션 마스킹을 적용해 비 유효 행동을 배제함으로써, 학습 수렴 안정성과 탐색 효율을 개선하였다. 실험 결 과, 제안 기법은 기존 중심성 기반 휴리스틱 대비 방어 효율이 약 47% 향상되었다. 특히 스트레스 테스트를 통해, 감염 확률 15% 구간에서 승률이 92%에서 10%로 급락하는 임계 전이(phase transition) 현상을 확인하였다. 이를 통해 제안 기법의 단독 운용이 가능한 성능 한계점을 정량적으로 도출하였다.
목차
요약 ABSTRACT 1. 서론 2. 관련 연구 2.1 복잡계 네트워크 위상과 전술 망의 취약성 2.2 네트워크 확산 모델 및 방역 임계치 이론 2.3 심층 강화학습 기반 사이버보안 2.4 기존 연구와의 차별성 3. 제안하는 방법 3.1 전술 네트워크 환경 및 감염 확산 모델 3.2 문제 및 MDP 정의 3.3 Maskable PPO 기반 자율 방역 에이전트 3.4 에이전트 행동 프로세스 4. 실험 및 분석 4.1 알고리즘 성능 및 전략적 효율성 비교 4.2 네트워크 위상 변화에 따른 강건성 검증 4.3 방역 임계치 및 시스템 복원력 분석 5. 결론 및 향후 연구 참고문헌