Reinforcement Learning
모두의 RL) 1. Dummy Q-Learning(table)
Magin
2024. 11. 15. 10:15
728x90
이전 포스팅을 통해서 강화학습에 대해서 간단하게 배웠습니다.

Q(s1, Left): 0 Q(s1, Right): 0.5 Q(s1, Up): 0 Q(s1, Down): 0.3
위 수식은 s1이라는 상태에서 움직였을 때 Reward 값이 적혀있다.
그리고 Agent는 현재 상태에서 Q가 큰값으로 이동 할 것이기 때문에 Q(s1, Right)이고
Q가 최댓값이 되게하는 변수가 Right에 해당되니다.
여기서 파이는 Policy를 의미하고 *가 붙은 것은 Optimal 된 값을 나타냅니다.
Q 학습 로직

- 현재 상황 (무조건 믿어라!!)
- 현재 위치는 s
- a의 행동을 했을 때, 위치는 s'
- a의 행동을 했을 때, r의 보상을 받는다.
- Q(s', a')은 알고있다.
- Q(s', a')를 통해서 Q(s, a)는 어떻게 나타낼 수 있나?
> Q(s, a)= r + max Q(s', a')

결론적으로는 시작점부터 도착점까지 다 더했을 때 총 Q값을 알 수 있다.
- 움직였을 때 R의 Reward를 받는다.
- R_t = r_t + R_t+1이며 이것이 t시점에서 r와 이후 모든 R를 합친 것이다.
즉, Q(s,a) = r + max Q(s’,a’)는 현재 상태 s에서 선택한 행동 a의 Q값은 다음 상태 s'로 갈 때 받을 보상 (r) + 다음 상태 s'에서 가장 높은 Q값을 가진 행동 a’의 Q값이라고 볼 수 있다.

학습을 통해서 만약 위에 그림처럼 Q가 설정이 되었다면 결과적으로는 Q*이 생성되었다고 본다.
하지만 경로를 따라가 보면 최적의 경로는 아니라고 판단이 된다.
이 부분은 다음 포스트에서 다루어 볼 예정입니다.
해당 게시물은 김성훈 교수님의 모두를 위한 RL 시리즈를 정리하는 내용을 담고 있습니다.
728x90