본문 바로가기

강화학습 강의 복습노트

0. 강화학습 복습노트를 시작하기 전에

이 복습노트는 패스트캠퍼스의 강화학습 A-Z를 수강하며 내용 복습을 위해 작성하는 노트이다. (광고X)

강의 링크 : www.fastcampus.co.kr/data_online_rein

 

모델 성능 개선으로 익히는 강화학습 A-Z 올인원 패키지 Online. | 패스트캠퍼스

원리부터 탄탄하게 이해하고 실습으로 익히는 강화학습 알고리즘의 모든 것.

www.fastcampus.co.kr

 

 

 

 

우선 나는 이 강의를 돈을 내지 않고 듣는 중이다.

2020년 여름 데이터 산업진흥원에서 주관하는 "빅데이터 청년 캠퍼스"를 참가했었다.

해당 과정을 수료하고나니 패스트 캠퍼스 강의 중 하나를 선택하여 무료로 수강할 수 있는 기회를 얻었는데

평소 추상적으로만 알고 있던 강화학습에 대해 구체적으로 배우고 싶어 위 과정을 신청했다.


이 강의는 총 6파트로 이루어져 있다.

Part1. 강화학습 소개

Part2. 가치기반 강화학습의 풀이법

Part3. 함수근사 기법

Part4. 정책 최적화

Part5. 심층강화학습

Part6. 모델 기반 학습

* 현재 글을 쓰고 있는 시점은 Part2를 완강 한 시점이다.

 

구글에 패스트캠퍼스를 검색하면 제일 먼저 등장하는 연관검색어가 '패스트캠퍼스 비추'이다.

하지만, 약 Part2까지 약 30%정도를 수강한 후 드는 나의 생각은 "괜찮다"이다. (강의 바이 강의인듯)

강사님의 설명도 귀에 쏙쏙 박히고 무엇보다도 강의노트가 정리가 잘 되어있다.

 

 

하지만 해당 강의를 원활하게 이해하기 위해서는 기본적으로 통계와 알고리즘에 대한 기초적인 지식이 필요할 것으로 보인다.

구글 검색을 통해 이 포스트를 보는 사람이라면 대부분 강의를 이해하는데 필요한 기본적인 지식은 갖췄으리라 생각하지만

 

최소한으로 필요한 지식들을 정리하자면 다음과 같다.


1. 조건부 확률

  -  조건부확률 $P(A|B)$ 는 B가 일어난 것을 알고있을 때, A가 발생할 확률이다.

  -  강화학습 이해를 위해서는 조건부확률에 대한 이해가 필수적이다.

참고 : m.blog.naver.com/PostView.nhn?blogId=mykepzzang&logNo=220834864348&proxyReferer=https:%2F%2Fwww.google.com%2F

 

[확률과 통계] 10. 조건부 확률, Conditional Probability

이전 포스팅에서는 확률의 덧셈정리를 알아봤습니다. 이번 포스팅에서는 '조건부 확률(conditional probabi...

blog.naver.com

 

2. 마르코프 체인

 -  마르코프 체인은 이산시간공간과 이산상태공간에서 시간에 따른 변화를 나타내는 체인이다. 

 -  현재 상태에서 다음 상태로 이동하는 것을 전이라고 하며, 모든 마르코프체인은 각 상태에 대한 전이행렬을 가진다.

참고 : bskyvision.com/573

 

[강화학습] 마코프 프로세스(=마코프 체인) 제대로 이해하기

이 포스팅은 어느 카테고리에 넣어야할지 고민이 된다. 확률과도 관련이 있고, 딥러닝의 강화학습과도 관련이 있고, 영상처리의 몇몇 알고리즘에서도 사용되기 때문이다. 짧은 고민 끝에 머신

bskyvision.com

3. Dynamic Programming (동적 계획법)

  -  동적 계획법이란 문제의 최적해를 구하거나 답의 개수를 세는 과정에 사용할 수 있는 알고리즘 설계 기법.

  -  전체 문제를 작은 문제로 단순화한 다음 점화식으로 만들어 재귀적인 구조를 활용해서 전체 문제를 해결하는 방식

참고 : wooder2050.medium.com/%EB%8F%99%EC%A0%81%EA%B3%84%ED%9A%8D%EB%B2%95-dynamic-programming-%EC%A0%95%EB%A6%AC-58e1dbcb80a0

 

동적계획법(Dynamic Programming) 정리

동적계획법은 문제의 최적해를 구하거나 답의 개수를 세는 과정에 사용할 수 있는 알고리즘 설계 기법입니다. 동적계획법을 사용하면 불필요한 계산을 줄이고, 효율적으로 최적해를 찾을 수 있

wooder2050.medium.com


통계학을 전공한 나의 단편적인 시각으로 봤을 때 필요한 기본지식들은 이정도이다.

(아직 초반부라 그럴수도 있다.)

 

강화학습 카테고리 내의 모든 포스트들은 오로지 복습을 목적으로 만든것이며

전체 내용을 포함하기 보단 내가 이해하지 못한 추상적인 개념을 구체화하고

나의 눈높이로 강의를 들으며 명확하게 깨달은 부분을 코드 위주로 다룰 것이다.