This study presents a methodology for portfolio management using reinforcement learning, in which agent actions drive latent state transitions. By estimating these transitions, the agent acquires a latent world model that serves as the foundation for more sophisticated investment strategies. Building on this idea, we introduce a novel framework that integrates reinforcement learning with Monte Carlo Tree Search, thereby enabling a richer understanding of the underlying environment beyond mere reward maximization. Empirical results show that the proposed method achieved an average cumulative return of 31.617% across four independent 50-day test datasets, consistently outperforming benchmark algorithms. Moreover, the performance observed over a 50-day horizon corresponds to an annualized return of approximately 365.667%, underscoring its effectiveness in both short- and long-term contexts. Collectively, these findings suggest that the MuZero-based search framework can simultaneously support environment modeling through a latent world representation and deliver robust performance under the uncertainty and complexity inherent in financial markets.
한국어
본 연구는 강화학습 기반 포트폴리오 관리에서 에이전트의 행동이 잠재적 상태 전이를 일으키며, 이러한 전이 과정 을 추정함으로써 잠재 세계 모형(latent world model)을 학습하고 이를 바탕으로 포트폴리오 전략을 설계하는 방 법을 제안한다. 이를 위해 강화학습과 몬테카를로 트리 탐색(Monte Carlo Tree Search, MCTS)을 결합한 새로 운 접근을 도입하여 단순한 보상 극대화를 넘어 환경 구조에 대한 내재적 이해를 가능하게 하였다. 실증 분석 결과, 제안된 방법은 네 개의 독립된 50일 일간 테스트 구간에서 평균 약 31.617%의 누적 수익률을 기록하며, 기존 알 고리즘을 일관되게 상회하였다. 특히 50일 성과를 연환산하면 약 365.667%에 해당해 단기와 장기 모두에서 우수 성을 보였다. MuZero 기반 탐색 구조는 금융시장의 불확실성과 복잡성 속에서도 잠재 세계 모형을 통한 환경 이해 와 성과 달성을 동시에 가능하게 함을 입증했다.
목차
요약 Abstract 1. 서론 2. 관련 연구 3. 방법론 3.1 MCTS와 MuZero 3.2 데이터 수집 및 처리 3.3 학습용 경험의 수집 3.4 학습과정 4. 실험 결과 4.1 실험 환경 4.2 평가지표 설명 4.3 실험 결과 비교 5. 결론 Acknowledgements 참고문헌
키워드
강화학습몬테카를로 트리 탐색포트폴리오 관리위험조정 수익률잠재 시장 시뮬레이션Reinforcement LearningMonte Carlo Tree SearchPortfolio ManagementRisk- Adjusted ReturnsLatent Market Simulation