ABOUT ME

Today
Yesterday
Total
  • 모두의 RL) 1. Dummy Q-Learning(table)
    Reinforcement Learning 2024. 11. 15. 10:15
    728x90

     

    이전 포스팅을 통해서 강화학습에 대해서 간단하게 배웠습니다.

     

    Q(s1, Left): 0  Q(s1, Right): 0.5 Q(s1, Up): 0 Q(s1, Down): 0.3 

     

    위 수식은 s1이라는 상태에서 움직였을 때 Reward 값이 적혀있다.

    그리고 Agent는 현재 상태에서 Q가 큰값으로 이동 할 것이기 때문에 Q(s1, Right)이고

    Q가 최댓값이 되게하는 변수가 Right에 해당되니다.

     

    여기서 파이는 Policy를 의미하고 *가 붙은 것은 Optimal 된 값을 나타냅니다.

     

     

    Q 학습 로직

    • 현재 상황 (무조건 믿어라!!)
      • 현재 위치는 s
      • a의 행동을 했을 때, 위치는 s'
      • a의 행동을 했을 때, r의 보상을 받는다.
      • Q(s', a')은 알고있다.
    • Q(s', a')를 통해서 Q(s, a)는 어떻게 나타낼 수 있나?
      > Q(s, a)= r + max Q(s', a') 

     결론적으로는 시작점부터 도착점까지 다 더했을 때 총 Q값을 알 수 있다.

    • 움직였을 때 R의 Reward를 받는다.
    • R_t = r_t + R_t+1이며 이것이 t시점에서 r와 이후 모든 R를 합친 것이다.

    즉, Q(s,a) = r + max Q(s’,a’)는 현재 상태 s에서 선택한 행동 a의 Q값은 다음 상태 s'로 갈 때 받을 보상 (r) + 다음 상태 s'에서 가장 높은 Q값을 가진 행동 a’의 Q값이라고 볼 수 있다.

     

     학습을 통해서 만약 위에 그림처럼 Q가 설정이 되었다면 결과적으로는 Q*이 생성되었다고 본다.

    하지만 경로를 따라가 보면 최적의  경로는 아니라고 판단이 된다.

    이 부분은 다음 포스트에서 다루어 볼 예정입니다.

     

     

    해당 게시물은 김성훈 교수님의 모두를 위한 RL 시리즈를 정리하는 내용을 담고 있습니다.

     

     

    728x90

    'Reinforcement Learning' 카테고리의 다른 글

    모두의 RL) 1. Q-Learning Intro  (0) 2024.11.14
Designed by Tistory.