reinforcement
-
모두의 RL) 1. Dummy Q-Learning(table)Reinforcement Learning 2024. 11. 15. 10:15
이전 포스팅을 통해서 강화학습에 대해서 간단하게 배웠습니다. Q(s1, Left): 0 Q(s1, Right): 0.5 Q(s1, Up): 0 Q(s1, Down): 0.3 위 수식은 s1이라는 상태에서 움직였을 때 Reward 값이 적혀있다.그리고 Agent는 현재 상태에서 Q가 큰값으로 이동 할 것이기 때문에 Q(s1, Right)이고Q가 최댓값이 되게하는 변수가 Right에 해당되니다. 여기서 파이는 Policy를 의미하고 *가 붙은 것은 Optimal 된 값을 나타냅니다. Q 학습 로직현재 상황 (무조건 믿어라!!)현재 위치는 sa의 행동을 했을 때, 위치는 s'a의 행동을 했을 때, r의 보상을 받는다.Q(s', a')은 알고있다.Q(s', a')를 통해서 Q(s, a)는 어떻게 나타낼 수..
-
모두의 RL) 1. Q-Learning IntroReinforcement Learning 2024. 11. 14. 15:37
먼저 Machine Learning에는 다음과 같이 나타낼 수 있씁니다.지도학습 + 비지도학습 + 강화학습저는 이제 학부때 카메라 센서를 주로 사용하여 YOLO를 통해서 지도학습쪽을 주로 공부하고 담당하였습니다.때문에 강화학습은 아예 모르는 상황에서 최근에 공부를 시작하였고, 저의 목표는 강화학습을 통해서 로봇을 제어 해보고자 합니다. 강화학습 예시)강화학습을 예시를 들어서 설명을 하자면 해당 RL 강의에서 다루는 Frozen Lake World 게임이 있습니다.S: 시작점 F: 이동가능한 위치 H: 장애물 G: 목표지점 해당 게임을 한마디로 요약하면 다음과 같습니다. 어느 맵(Environment)에 펭귄(Agent)이 있고, 해당 위치(State)에서 랜덤하게 상,하,좌,우 4방향으로 움직(A..