모두의 RL) 1. Dummy Q-Learning(table)

모두의 RL) 1. Dummy Q-Learning(table)

Reinforcement Learning 2024. 11. 15. 10:15
728x90
이전 포스팅을 통해서 강화학습에 대해서 간단하게 배웠습니다.

Q(s1, Left): 0 Q(s1, Right): 0.5 Q(s1, Up): 0 Q(s1, Down): 0.3

위 수식은 s1이라는 상태에서 움직였을 때 Reward 값이 적혀있다.

그리고 Agent는 현재 상태에서 Q가 큰값으로 이동 할 것이기 때문에 Q(s1, Right)이고

Q가 최댓값이 되게하는 변수가 Right에 해당되니다.

여기서 파이는 Policy를 의미하고 *가 붙은 것은 Optimal 된 값을 나타냅니다.

Q 학습 로직

현재 상황 (무조건 믿어라!!)

현재 위치는 s

a의 행동을 했을 때, 위치는 s'

a의 행동을 했을 때, r의 보상을 받는다.

Q(s', a')은 알고있다.

Q(s', a')를 통해서 Q(s, a)는 어떻게 나타낼 수 있나?
> Q(s, a)= r + max Q(s', a')

결론적으로는 시작점부터 도착점까지 다 더했을 때 총 Q값을 알 수 있다.

움직였을 때 R의 Reward를 받는다.

R_t = r_t + R_t+1이며 이것이 t시점에서 r와 이후 모든 R를 합친 것이다.

즉, Q(s,a) = r + max Q(s’,a’)는 현재 상태 s에서 선택한 행동 a의 Q값은 다음 상태 s'로 갈 때 받을 보상 (r) + 다음 상태 s'에서 가장 높은 Q값을 가진 행동 a’의 Q값이라고 볼 수 있다.

학습을 통해서 만약 위에 그림처럼 Q가 설정이 되었다면 결과적으로는 Q*이 생성되었다고 본다.

하지만 경로를 따라가 보면 최적의 경로는 아니라고 판단이 된다.

이 부분은 다음 포스트에서 다루어 볼 예정입니다.

해당 게시물은 김성훈 교수님의 모두를 위한 RL 시리즈를 정리하는 내용을 담고 있습니다.
728x90

'Reinforcement Learning' 카테고리의 다른 글

모두의 RL) 1. Q-Learning Intro (0) 2024.11.14
관련글 관련글 더보기
- 모두의 RL) 1. Q-Learning Intro

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

인기포스트

ABOUT ME

Magin-playground Magin-playground

Q(s1, Left): 0 Q(s1, Right): 0.5 Q(s1, Up): 0 Q(s1, Down): 0.3

Q 학습 로직

'Reinforcement Learning' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

인기포스트

ABOUT ME

Q(s1, Left): 0 Q(s1, Right): 0.5 Q(s1, Up): 0 Q(s1, Down): 0.3

Q 학습 로직

'Reinforcement Learning' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역