强化学习

Reinforcement Learning RL

机器学习的一个重要分支，通过让智能体（Agent）在环境中（Environment）进行试错（Trial and Error），并根据反馈来学习最优行为策略，以最大化累积奖励（Cumulative Reward）。

强化学习是通过与环境交互、积累经验、优化策略，以最大化累计奖励的过程。

强化学习的过程可以用一个五元组来描述：

\begin{array}{r} (S, A, P, R, γ) \end{array}

智能体的目标是学会一个策略（policy），使得累计期望回报最大：

G_{t} = R_{t + 1} + γ R_{t + 2} + γ^{2} R_{t + 3} + \dots \Rightarrow max E [G_{t}]

符号	名称	含义
$S$	状态空间	环境当前的观测
$A$	动作空间	智能体能在当前状态下采取的行为
$P$	状态转移函数	给定状态和动作后转移到下一个状态的概率，用于刻画环境的动态特性。
$R$	奖励函数	衡量智能体动作好坏的指标，即它能从环境中获得多少即时奖励。
$γ$	折扣因子	衡量未来奖励的重要性，取值在 $[0, 1]$ 之间， $γ$ 越大，未来的奖励越重要。

强化学习的核心是让智能体通过与环境的交互来学习最优策略。其基本流程如下：

强化学习的算法可以分为两大类：基于价值的算法和基于策略的算法。

基于价值的算法（Value-Based Methods）
基于策略的算法（Policy-Based Methods）
结合价值与策略的算法 Actor-Critic