이 복습노트는 패스트캠퍼스의 강화학습 A-Z를 수강하며 내용 복습을 위해 작성하는 노트이다. (광고X)
강의 링크 : www.fastcampus.co.kr/data_online_rein
우선 나는 이 강의를 돈을 내지 않고 듣는 중이다.
2020년 여름 데이터 산업진흥원에서 주관하는 "빅데이터 청년 캠퍼스"를 참가했었다.
해당 과정을 수료하고나니 패스트 캠퍼스 강의 중 하나를 선택하여 무료로 수강할 수 있는 기회를 얻었는데
평소 추상적으로만 알고 있던 강화학습에 대해 구체적으로 배우고 싶어 위 과정을 신청했다.
이 강의는 총 6파트로 이루어져 있다.
Part1. 강화학습 소개
Part2. 가치기반 강화학습의 풀이법
Part3. 함수근사 기법
Part4. 정책 최적화
Part5. 심층강화학습
Part6. 모델 기반 학습
* 현재 글을 쓰고 있는 시점은 Part2를 완강 한 시점이다.
구글에 패스트캠퍼스를 검색하면 제일 먼저 등장하는 연관검색어가 '패스트캠퍼스 비추'이다.
하지만, 약 Part2까지 약 30%정도를 수강한 후 드는 나의 생각은 "괜찮다"이다. (강의 바이 강의인듯)
강사님의 설명도 귀에 쏙쏙 박히고 무엇보다도 강의노트가 정리가 잘 되어있다.
하지만 해당 강의를 원활하게 이해하기 위해서는 기본적으로 통계와 알고리즘에 대한 기초적인 지식이 필요할 것으로 보인다.
구글 검색을 통해 이 포스트를 보는 사람이라면 대부분 강의를 이해하는데 필요한 기본적인 지식은 갖췄으리라 생각하지만
최소한으로 필요한 지식들을 정리하자면 다음과 같다.
1. 조건부 확률
- 조건부확률 $P(A|B)$ 는 B가 일어난 것을 알고있을 때, A가 발생할 확률이다.
- 강화학습 이해를 위해서는 조건부확률에 대한 이해가 필수적이다.
2. 마르코프 체인
- 마르코프 체인은 이산시간공간과 이산상태공간에서 시간에 따른 변화를 나타내는 체인이다.
- 현재 상태에서 다음 상태로 이동하는 것을 전이라고 하며, 모든 마르코프체인은 각 상태에 대한 전이행렬을 가진다.
참고 : bskyvision.com/573
3. Dynamic Programming (동적 계획법)
- 동적 계획법이란 문제의 최적해를 구하거나 답의 개수를 세는 과정에 사용할 수 있는 알고리즘 설계 기법.
- 전체 문제를 작은 문제로 단순화한 다음 점화식으로 만들어 재귀적인 구조를 활용해서 전체 문제를 해결하는 방식
통계학을 전공한 나의 단편적인 시각으로 봤을 때 필요한 기본지식들은 이정도이다.
(아직 초반부라 그럴수도 있다.)
강화학습 카테고리 내의 모든 포스트들은 오로지 복습을 목적으로 만든것이며
전체 내용을 포함하기 보단 내가 이해하지 못한 추상적인 개념을 구체화하고
나의 눈높이로 강의를 들으며 명확하게 깨달은 부분을 코드 위주로 다룰 것이다.
'강화학습 강의 복습노트' 카테고리의 다른 글
Part2 - 4. 비동기적 동적계획법 (0) | 2020.12.23 |
---|---|
Part2 - 3. 동적계획법 (Dynamic Programming) (0) | 2020.12.23 |
Part2 - 2. MDP(Markov Decision Processes) (0) | 2020.12.21 |
Part2 - 1. MP, MRP (0) | 2020.12.21 |
Part1 - 1. 강화학습의 기본개념 (0) | 2020.12.21 |