1) 강화학습을 하나의 그림으로 설명하자면 다음과 같다.
"Agent가 Environment와 상호작용을 통해 목표 달성방법을 배우는 문제"
"현재 상태에서 가장 좋은 행동을 찾기위해 학습하는 것"
강화학습은 학습의주체인 에이전트(Agent)와 환경(Environment)이 주된 구성요소이다.
※참고 : 해당 강의에서는 모든 과정을 이산시간공간과 이산상태공간으로 가정하고 진행함.
2) 강화학습이 다루는 문제에는 특징 3가지가 있다.
1. 정답을 모른다! 대신 행동에 대한 보상 / 다음상태가 주어진다.
2. 현재의 의사결정이 미래에 영향을 미친다.
3. 문제의 구조를 모른다.
3) 강화학습의 구성요소
위 그림을 다시보면 에이전트와 환경 사이에 화살표가 보인다.
화살표에 써있는 글을 정리하면 다음과 같다.
> 에이전트의 관점 : 현재상태 $s_t$를 관측 -> $s_t$에서 가장 적합한 행동 $a_t$를 구한 후 환경에 가한다.
> 환경의 관점 : 에이전트에게 받은 $a_t$를 반영 -> 그로인한 다음상태 $s_{t+1}$과 보상$r_{t+1}$을 에이전트에게 준다.
에이전트의 구성요소
- 정책(정책함수, policy) : Agent가 특정 상태에서 행동하는 방식을 결정짓는 요소
- 가치함수(Value function) : 각각의 상태/행동이 얼마나 좋은지를 평가하는 요소
- 모델(Model) : Agent가 추측하는 세상
환경의 구성요소
- $a_t$ (행동) : 에이전트가 현재 상태에서 할 수 있는 행동 (행동을 취하면 다음상태$s_{t+1}$로 이동)
- $r_{t+1}$ (보상) : 상태 $s_{t+1}$에서 얻을 수 있는 보상
- $s_t$, $s_{t+1}$ (상태) : 현재상태와 $a_t$에 의해 이동한 다음의 상태
4) 정책/가치/모델 학습기법에 따른 RL의 종류
내 생각 :
처음 들을 땐 정책, 가치함수, 모델이 어떻게 생긴건지,
행렬로 구현한다면 몇행 몇열로 만들어야하는지 애매했었고,
함수라는 말 때문에 개발언어에서의 function의 역할을 떠올리기 쉬웠다.
정확한 내용은 뒤에서 다시 확인 할 것이다.
참고자료 :
강화학습 A-Z 강의노트
'강화학습 강의 복습노트' 카테고리의 다른 글
Part2 - 4. 비동기적 동적계획법 (0) | 2020.12.23 |
---|---|
Part2 - 3. 동적계획법 (Dynamic Programming) (0) | 2020.12.23 |
Part2 - 2. MDP(Markov Decision Processes) (0) | 2020.12.21 |
Part2 - 1. MP, MRP (0) | 2020.12.21 |
0. 강화학습 복습노트를 시작하기 전에 (1) | 2020.12.20 |