본문 바로가기

강화학습 강의 복습노트

(12)
Part2 - 2. MDP(Markov Decision Processes) 1) 마르코프 결정과정 (Markov Decision Process : MDP) : 마르코프 보상과정(MRP)에 행동을 추가한 과정 - MDP 인 튜플이다 - $S$ : 유한한 상태의 집합 - $\cal{A}$ : 유한한 행동의 집합 - $P$ : 상태천이행렬, $P_{ss'}^{a} = P[S_{t+1} = s' | S_t = s, A_t = a]$ -> $P_{ss'}^{a}$ : 행동 a가 추가됨으로써 3차원형태 (행동의수, $s_t$상태의 수, $s_{t+1}$상태의 수) - $R$ : 보상함수, $R : S \times \cal{A} \rightarrow \mathbb {R}$ -> 2차원 matrix - $\gamma$ : 감소율 "기존의 MRP에 비해 차원이 증가" 여기부터는 새로운 개념이 ..
Part2 - 1. MP, MRP 1) 강화학습 문제와 가치기반 강화학습 문제의 풀이 기법 2) 이번 chapter에서 익혀야 할 개념 2-1) MDP (Markov Decision Process) : 마르코프 결정과정 - "강화학습 문제"를 기술하는 수학적 표현방법 - 마르코프 결정과정을 쉽게 이해하기 위해서는 MC(Markov Chain), MRP(Markov Reward Process)에 대한 이해가 필요 2-2) MC (Markov Chain) : 마르코프 과정 또는 마르코프 체인 - 마르코프 특성(Markov Property)을 따르는 과정을 뜻함 * 마르코프 특성과 체인에 대한 기본 개념은 알고 있을 것으로 생각하고 진행한다. - MC 인 튜플 $S$ : 유한한 상태의 집합 $P$ : 상태 천이 행렬 (State Transit..
Part1 - 1. 강화학습의 기본개념 1) 강화학습을 하나의 그림으로 설명하자면 다음과 같다. "Agent가 Environment와 상호작용을 통해 목표 달성방법을 배우는 문제" "현재 상태에서 가장 좋은 행동을 찾기위해 학습하는 것" 강화학습은 학습의주체인 에이전트(Agent)와 환경(Environment)이 주된 구성요소이다. ※참고 : 해당 강의에서는 모든 과정을 이산시간공간과 이산상태공간으로 가정하고 진행함. 2) 강화학습이 다루는 문제에는 특징 3가지가 있다. 1. 정답을 모른다! 대신 행동에 대한 보상 / 다음상태가 주어진다. 2. 현재의 의사결정이 미래에 영향을 미친다. 3. 문제의 구조를 모른다. 3) 강화학습의 구성요소 위 그림을 다시보면 에이전트와 환경 사이에 화살표가 보인다. 화살표에 써있는 글을 정리하면 다음과 같다. ..
0. 강화학습 복습노트를 시작하기 전에 이 복습노트는 패스트캠퍼스의 강화학습 A-Z를 수강하며 내용 복습을 위해 작성하는 노트이다. (광고X) 강의 링크 : www.fastcampus.co.kr/data_online_rein 모델 성능 개선으로 익히는 강화학습 A-Z 올인원 패키지 Online. | 패스트캠퍼스 원리부터 탄탄하게 이해하고 실습으로 익히는 강화학습 알고리즘의 모든 것. www.fastcampus.co.kr 우선 나는 이 강의를 돈을 내지 않고 듣는 중이다. 2020년 여름 데이터 산업진흥원에서 주관하는 "빅데이터 청년 캠퍼스"를 참가했었다. 해당 과정을 수료하고나니 패스트 캠퍼스 강의 중 하나를 선택하여 무료로 수강할 수 있는 기회를 얻었는데 평소 추상적으로만 알고 있던 강화학습에 대해 구체적으로 배우고 싶어 위 과정을 신청했다..