cs234 8강 정리글입니다.

8강 한눈에 보기 😊 cs234 강의는 약 한시간내에 많은 양의 내용을 쏟아내고 있기 때문에, 목차를 보면서 어디까지 왔는지 계속 확인하면 좋더라구요!! 참고해보세요 ㅎㅎ

8.1 Introduction

Policy-based RL이 무엇인가

무엇을 근사할 것인가!!

우리는 강화학습을 매우 큰 state space에서 다루기 위해, parameter($\theta$ 혹은 $w$(weights))를 사용해서 근사(approximation)하기 시작했습니다. 그럼 무엇을 근사할 지, 그 대상에 대해 생각해 보아야합니다.

Value-based RL : 근사 대상 = Value 혹은 Q funciton

이제까지 다뤘던 방법은 value function을 근사하였습니다. 따라서 이들을 value-based RL이라고 부릅니다. $V_\theta(s) \approx V^\pi(s)$ 으로, 혹은 Q function을 $Q_\theta(s,a) \approx Q^\pi(s,a)$ 로 근사하여 표현했습니다.

하지만, agent가 움직이기 위해서는 구체적인 행동 지침이 필요합니다. agent가 어떻게 행동할지, state와 action을 어떻게 매핑할 지 알려주는 구체적인 행동 지침! ‘정책(policy)’이 필요합니다. 이전 강의들을 되돌이켜보면, value-based 방법에서는 보통 $\epsilon$-greedy 방법으로 정책을 구현하였습니다. $\epsilon$-greedy 방법의 행동 지침은 특정 state에서 가능한 여러 aciton중에서 $\epsilon$의 확률로는 랜덤하게 action을 선택하고, 1-$\epsilon$의 확률로는 미리 구해놓은 value 값(혹은 Q)이 가장 큰 action을 선택하는 것입니다.

Policy-based RL : 근사 대상 = Policy

오늘부터 우리가 배울 Policy-based RL의 근사 대상은 다릅니다. 이제는 정책 자체를 근사해볼 것입니다. 강의 초반의 tabular setting으로 거슬러 올라가면, tabular setting에서도 직접적으로 정책을 표현하긴 했습니다만, state와 action의 크기가 매우 한정적이기에 $\pi : S \rightarrow A$와 같이 모든 state에 특정한 action을 바로 매핑할 수 있었습니다. 하지만, 우리는 더이상 시시한 scale만을 다루지 않기 때문에, 어마어마한 크기의 state-action 쌍을 table로 다 표현할 수 없습니다. 그래서 등장한 개념이 Policy-Based RL!!! Policy-based RL의 아이디어는 ‘정책을 일일히 table로 다 적어내지 말고 근사해보자!’ 입니다. 따라서 어느 state에서 특정한 action을 할 확률이 $\theta$로 근사되어 정책이 구현됩니다.

<aside> 💡 Policy 정책 : $\pi_\theta(s,a) = P[a|s;\theta]$

</aside>

RL Approach

그림1을 살펴보면, 앞서 언급한 Value-based 방법과 Policy-based 방법이 양축에 존재하고, 공통 분모 영역에서 이 둘의 방법론을 합친 Actor-Critic 방법도 확인할 수 있습니다. Actor-Critic 방법은 policy-based의 근사된 policy를 Actor로, value-based 방법의 근사된 value function을 Critic으로 활용하는 방법론입니다. 해당 강의에서는 Actor-Critic을 이 정도로만 간단히 다루었고, 차후의 강의에서 자세히 배울 수 있길 기대해봅니다.

Fig1. RL approach