With the rapid growth of video streaming services, efficient management of bandwidth in storage servers has become essential for maintaining service quality (QoS). This paper proposes a deep reinforcement learning (DRL)–based file placement method using Proximal Policy Optimization (PPO) to address bandwidth overload caused by temporal fluctuations in workloads. The proposed model observes the storage capacity and available bandwidth of each server, along with the popularity and required bandwidth of requested files, and applies action masking to filter out infeasible actions, enabling the learning of placement policies that minimize bandwidth overload. Across diverse simulation scenarios involving different popularity distributions, storage constraints, and bandwidth demand levels, the proposed approach reduces bandwidth overload by approximately 25–45% compared to traditional heuristic methods and by 65–80% compared to simple policies such as round-robin and random placement, consistently achieving the best performance across all scenarios. These results demonstrate the effectiveness of learning-based file placement and highlight the potential of reinforcement learning for bandwidth-aware management in video server clusters.
한국어
최근 비디오 스트리밍 서비스가 빠르게 확산되면서, 스토리지 시스템의 대역폭을 효율적으로 관리하는 일이 서비스 품질을 유지하는 데 있어 매우 중요해지고 있다. 본 논문은 워크로드의 시간적 변동으로 발생하는 서버 대역폭 과부하(overload) 문제를 해결하기 위해 심층 강화학습(DRL: Deep Reinforcement Learning) 기반 파일 배치 기법을 제안한다. 제안된 모델은 서버별 저장 용량, 사용 가능한 대역폭, 요청 파일의 인기도 및 요구 대역폭을 상태로 관찰하고, 불가능한 액션을 제거하는 액션 마스킹(action masking)을 통해 대역폭 과부하를 최소화하는 배치 정책을 학습한다. 인기도 분포, 저장 공간 제약, 대역폭 요청량을 변화시킨 다양한 실험 시나리오에서 제안 기법은 기존 휴리스틱 대비 평균 25~45%, 단순 정책(라운드로빈·랜덤) 대비 평균 65~80%의 과부하 대역폭을 줄이며 모든 조건에서 가장 우수한 성능을 보였다. 이를 통해 학습 기반 파일 배치 기법의 효과성과 비디오 서버 클러스터 환경에서 강화학습 적용 가능성을 확인하였다.
목차
요약 Abstract 1. 서론 2. 관련 연구 3. 시스템 모델 3.1 시스템 구조 3.2 스트리밍 워크로드 모델 3.3 자원 제약 요건 4. 문제 정의 5. DRL 기반 과부하 최소화 알고리즘 5.1 액션 공간 (Action Space) 5.2 관찰 공간 (Observation Space) 5.3 보상 모델 (Reward Model) 5.4 의사코드 5.5 하이퍼인자 (hyper-parameter)설정 6. 실험 결과 6.1. 시뮬레이션 환경 6.2. 비교 알고리즘 (Baseline Algorithms) 6.3 Zipf 인자 변화에 따른 성능 분석 6.4 저장 용량 제약 변화에 따른 성능 분석 6.5 워크로드 강도 변화에 따른 성능 분석 7. 결론 참고문헌
키워드
비디오 스트리밍대역폭 관리심층강화학습과부하 관리video streamingbandwidth managementdeep reinforcement learningoverload management