본문 바로가기

강화학습 강의 복습노트

Part1 - 1. 강화학습의 기본개념

1) 강화학습을 하나의 그림으로 설명하자면 다음과 같다.

그림1. 강화학습 기본개념

 

"Agent가 Environment와 상호작용을 통해 목표 달성방법을 배우는 문제"

 

"현재 상태에서 가장 좋은 행동을 찾기위해 학습하는 것"

 

강화학습은 학습의주체인 에이전트(Agent)와 환경(Environment)이 주된 구성요소이다.

※참고 : 해당 강의에서는 모든 과정을 이산시간공간과 이산상태공간으로 가정하고 진행함.

 

2) 강화학습이 다루는 문제에는 특징 3가지가 있다.

1. 정답을 모른다! 대신 행동에 대한 보상 / 다음상태가 주어진다.

2. 현재의 의사결정이 미래에 영향을 미친다.

3. 문제의 구조를 모른다.

그림2. 문제 구조의 예 (문제를 알고 있을 때)

3) 강화학습의 구성요소

그림3. 강화학습 기본개념

위 그림을 다시보면 에이전트와 환경 사이에 화살표가 보인다.

화살표에 써있는 글을 정리하면 다음과 같다.

 

> 에이전트의 관점 : 현재상태 $s_t$를 관측 -> $s_t$에서 가장 적합한 행동 $a_t$를 구한 후 환경에 가한다.

 

> 환경의 관점 : 에이전트에게 받은 $a_t$를 반영 -> 그로인한 다음상태 $s_{t+1}$과 보상$r_{t+1}$을 에이전트에게 준다.

 

에이전트의 구성요소

 - 정책(정책함수, policy) : Agent가 특정 상태에서 행동하는 방식을 결정짓는 요소

 - 가치함수(Value function) : 각각의 상태/행동이 얼마나 좋은지를 평가하는 요소

 - 모델(Model) : Agent가 추측하는 세상

 

환경의 구성요소

 - $a_t$  (행동) : 에이전트가 현재 상태에서 할 수 있는 행동 (행동을 취하면 다음상태$s_{t+1}$로 이동)

 - $r_{t+1}$ (보상) : 상태 $s_{t+1}$에서 얻을 수 있는 보상

 - $s_t$, $s_{t+1}$ (상태) : 현재상태와 $a_t$에 의해 이동한 다음의 상태

 

4) 정책/가치/모델 학습기법에 따른 RL의 종류

그림4. 정책/가치/모델 학습기법에 따른 RL의 종류


내 생각 : 

더보기

처음 들을 땐 정책, 가치함수, 모델이 어떻게 생긴건지,

행렬로 구현한다면 몇행 몇열로 만들어야하는지 애매했었고,

 

함수라는 말 때문에 개발언어에서의 function의 역할을 떠올리기 쉬웠다.

 

정확한 내용은 뒤에서 다시 확인 할 것이다.

 

참고자료 :

강화학습 A-Z 강의노트