You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
1. 강화학습(Reinforcement Learning)의 정의를 서술하고, 지도학습(Supervised Learning)과의 차이점을 예시와 함께 설명하시오
A goal-directed learning from interaction
강화학습은 에이전트가 환경과 상호작용하면서 보상을 최대화하는 방향으로 행동 정책을 학습하는 방법이다.
에이전트는 상태(state)를 관찰하고, 행동(action)을 선택하여 환경에 영향을 주며, 그 결과로 보상(reward)을 받고 다음 상태로 전이된다.
이러한 반복 과정을 통해 최적의 행동 정책(policy)을 학습한다.
지도학습은 입력과 정답(label)이 주어진 데이터를 기반으로 모델을 학습시키는 방식이다.
반면 강화학습에서는 명시적인 정답이 없으며, 보상을 통해 간접적으로 학습된다.
예를 들어, 바둑을 둘 때 지도학습은 프로기사의 기보를 따라 두는 법을 배우는 것이라면,
강화학습은 직접 바둑을 두고 승패를 통해 잘 두는 법을 학습하는 것이다.
2. 강화학습에서의 Agent-Environment Interface를 설명하시오
에이전트는 현재 상태 $S_t$를 관찰하고
정책 $\pi$에 따라 행동 $A_t$를 선택하여 환경에 전달한다.
환경은 그에 대한 결과로 다음 상태 $S_{t+1}$과 보상 $R_{t+1}$을 반환한다.
이 과정을 반복하면서 에이전트는 장기적으로 얻을 보상의 총합을 최대화하도록 정책을 개선한다.
상태 가치함수와 행동 가치함수
$$ V^{\pi}(s) = \sum_{a \in A} \pi(a|s)Q^{\pi}(s, a) $$
Dynamic Programming
$$ \pi^* = \text{argmax}_{\pi}V_{\pi} \quad \text{ subject to MDP}$$
1. Dynamic Programming의 정의
DP는 환경의 모델(전이 확률과 보상 함수)이 주어졌을 때, 가치 함수와 최적 정책을 계산하는 알고리즘이다.
환경의 완전한 모델을 알고 있어야 한다.
상태와 행동 공간이 충분히 작아야 한다.
2. 선형대수로 가치함수 구하기
$$V^{\pi} = R^{\pi} + \gamma P^{\pi} V^{\pi}$$$$\to (I - \gamma P^{\pi})V^{\pi} = R^{\pi}$$$$\to V^{\pi} = (I - \gamma P^{\pi})^{-1}R^{\pi}$$
환경의 상태공간이 작아야 한다.
$\gamma < 1$ 이면 가역 행렬이 된다.
3. Policy Evaluation
Policy Evaluation이란 주어진 정책 ${\pi}$에 따라 각 상태의 가치 함수 $V^{\pi}(s)$를 계산하는 과정.
$$ V^{\pi} = \sum_a \pi(a|s)\sum_{s', r}p(s', r|s, a)[r + \gamma V^{\pi}(s')$$
벨만 기대 방정식을 반복적으로 계산하여 $V^{\pi}$를 점근적으로 수렴시킬 수 있다.
이때 $\gamma \in [0, 1)$이면 수렴이 보장된다.
정책 평가 결과는 이후 정책 개선 단계에서 사용되어 최적 정책을 찾는데 기여한다.
Two array implementation
In-place implementation
4. Policy Improvement - 가치 또는 행동-가치 함수를 이용해 어떻게 새로운 정책을 만드는지 설명하시오