Title

第16講 Reinforcement Learning/Q-learning

第1節

L16A

第2節

L16B

第3節

L16C

第4節

L16D

第5節

L16E

第6節

L16F

第7節

L16G

第8節

L16H

第9節

L16I

第10節

L16J

Syllabus

章節大綱

L16A
        Introduction
 
L16B
        Markov Decision Process (MDP)
 
L16C
        Value Iteration
 
L16D
        Policy Iteration
 
L16E
        Reinforcement Learning
 
L16F
        Model-Free RL based on MC Estimation
 
L16G
        Temporal Difference Learning  SARSA
 
L16H
        Exploration Strategies
 
L16I
        Q-Learning

L16J
        SARSA vs. Q-Learning