-
ch_04.ipynb
- 4 MDP를 알 때의 플래닝
- 4.1 밸류 평가하기 - 반복적 정책평가
- 4.2 최고의 정책 찾기 - 밸류 이터레이션
- 4 MDP를 알 때의 플래닝
-
ch_05.ipynb
- 5 MDP를 모를 때 밸류 평가하기
- 5.1 몬테카를로 학습
- 5.2 Temporal Difference 학습
- 5 MDP를 모를 때 밸류 평가하기
-
ch_06.ipynb
- 6 MDP를 모를 때 최고의 정책 찾기
- 6.1 몬테카를로 컨트롤
- 6.2 TD 컨트롤 1 - SARSA
- 6.3 TD 컨트롤 2 - Q러닝
- 6 MDP를 모를 때 최고의 정책 찾기
-
ch_07.ipynb
- 7 Deep RL의 첫걸음
- 7.4 파이토치를 이용한 신경망의 학습 구현
- 7 Deep RL의 첫걸음
-
ch_08.ipynb
- 8 가치 기반 에이전트
- 8.2 딥 Q러닝
- 8 가치 기반 에이전트
-
ch_09.ipynb
- 9 정책 기반 에이전트
- 9.2 REINFORCE 알고리즘
- 9.3 액터-크리틱
- 9 정책 기반 에이전트
-
Notifications
You must be signed in to change notification settings - Fork 2
with-rl/reinforcement-learning-from-basic
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
바닥부터 배우는 강화학습 교재를 공부 하면서 코드로 구현한 내용
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published