Earticle

다운로드

Deep Deterministic Policy Gradient 알고리즘을 응용한 자전거의 자율 주행 제어
Autonomous control of bicycle using Deep Deterministic Policy Gradient Algorithm

원문정보

초록

한국어
DDPG(Deep Deterministic Policy Gradient)알고리즘은 인공신경망과 강화학습을 사용하여 학습하는 알고리즘이다. 최근많은 연구가 이루어지고 있는 강화학습과 관련된 연구 중에서도 DDPG 알고리즘은 오프폴리시로 학습하기 때문에 잘못된 행동이 누적되어 학습에 영향을 미치는 경우를 방지하는 장점이 있다. 본 연구에서는 DDPG 알고리즘을 응용하여 자전거를 자율주행 하도록 제어하는 실험을 진행하였다. 다양한 환경을 설정하여 시뮬레이션을 진행하였고 실험을 통해서 사용된 방법이시뮬레이션 상에서 안정적으로 동작함을 보였다.
영어
The Deep Deterministic Policy Gradient (DDPG) algorithm is an algorithm that learns by using artificial neural network s and reinforcement learning. Among the studies related to reinforcement learning, which has been recently studied, the D DPG algorithm has an advantage of preventing the cases where the wrong actions are accumulated and affecting the learn ing because it is learned by the off-policy. In this study, we experimented to control the bicycle autonomously by applyin g the DDPG algorithm. Simulation was carried out by setting various environments and it was shown that the method us ed in the experiment works stably on the simulation.

목차

요약
ABSTRACT
1. 서론
2. 관련 연구
2.1 강화학습
2.2 MDP(Markov Decision Problem)
2.3 액터 크리틱
3. DDPG를 사용한 자전거의 자율주행 제어
3.1 DDPG(Deep Deterministic Policy Gradient)
4. 실험 및 결과
4.1 목표지점을 고정하는 경우의 결과
4.2 속도와 목표지점을 무작위로 설정한 경우의 결과
5. 결론
참고문헌

저자

  • 최승윤 [ Choi Seung Yoon | 경희대학교/컴퓨터공학과 ]
  • Le Pham Tuyen [ 경희대학교/컴퓨터공학과 ]
  • 정태충 [ Chung Tae Choong | 경희대학교/컴퓨터공학과 ] 교신저자

참고문헌

자료제공 : 네이버학술정보

    간행물 정보

    • 간행물
      융합보안논문지 [Jouranl of Information and Security]
    • 간기
      연5회
    • pISSN
      1598-7329
    • 수록기간
      2001~2026
    • 등재여부
      KCI 등재
    • 십진분류
      KDC 005 DDC 005