모두의 RL) 1. Dummy Q-Learning(table)

Reinforcement Learning

Magin 2024. 11. 15. 10:15

728x90

위 수식은 s1이라는 상태에서 움직였을 때 Reward 값이 적혀있다.

그리고 Agent는 현재 상태에서 Q가 큰값으로 이동 할 것이기 때문에 Q(s1, Right)이고

Q가 최댓값이 되게하는 변수가 Right에 해당되니다.

여기서 파이는 Policy를 의미하고 *가 붙은 것은 Optimal 된 값을 나타냅니다.

현재 상황 (무조건 믿어라!!)
- 현재 위치는 s
- a의 행동을 했을 때, 위치는 s'
- a의 행동을 했을 때, r의 보상을 받는다.
- Q(s', a')은 알고있다.
Q(s', a')를 통해서 Q(s, a)는 어떻게 나타낼 수 있나?
> Q(s, a)= r + max Q(s', a')

결론적으로는 시작점부터 도착점까지 다 더했을 때 총 Q값을 알 수 있다.

즉, Q(s,a) = r + max Q(s’,a’)는 현재 상태 s에서 선택한 행동 a의 Q값은 다음 상태 s'로 갈 때 받을 보상 (r) + 다음 상태 s'에서 가장 높은 Q값을 가진 행동 a’의 Q값이라고 볼 수 있다.

학습을 통해서 만약 위에 그림처럼 Q가 설정이 되었다면 결과적으로는 Q*이 생성되었다고 본다.

하지만 경로를 따라가 보면 최적의 경로는 아니라고 판단이 된다.

이 부분은 다음 포스트에서 다루어 볼 예정입니다.

해당 게시물은 김성훈 교수님의 모두를 위한 RL 시리즈를 정리하는 내용을 담고 있습니다.

728x90