模仿学习

Learning from Demonstration LfD

LfD is a fast-growing field in robot learning. It aims for robots to imitate human experts while adapting to new situations.

通过让机器人观察人类或专家示范来学习任务,以避免直接编程或复杂的奖励函数设计。它适用于高维复杂任务或人类专家难以给出明确规则的场景。

旨在从有限示范中学习到策略,使机器人能够执行类似专家的动作。核心问题包括如何表示专家示范、如何解决分布偏移(covariate shift)以及如何在无监督信号下学习合理的策略。

相比于强化学习(Reinforcement Learning, RL),模仿学习具有训练速度快、收敛更稳定、易于应用的优势,尤其适用于复杂场景下奖励难以设计的问题。

核心流程

【示范采集】→【数据建模】→【策略生成】→【泛化适应】→【执行评估】

示范采集(Demonstration Collection)

从人类或其他代理采集示范样本。

采集方式

数据建模(Trajectory Encoding)

将采集的轨迹数据转化为可用于学习的数学模型。

主流建模方法:运动基元(Motion Primitives)

方法 中文名称 特点 适用场景
DMP
动态运动基元
动态系统建模,良好的稳定性
弹簧阻尼模型
周期性、目标导向运动
ProMP 概率运动基元 基于高斯分布,概率建模
支持不确定性
多演示,任务泛化
KMP 核化运动基元 核函数建模,适配高维数据
利用核函数提升泛化能力
高维空间,复杂形状轨迹
TP- GMM 高斯混合模型 多参考系学习,适配复杂任务
带时间参数或任务参数
多工况,多坐标系任务

建模空间

策略生成(Policy Generation)

从建模结果中生成轨迹执行策略。

方式

泛化适应(Generalization and Adaptation)

适应新环境、新目标或新约束。

泛化形式

适应工具

执行与评估(Execution and Evaluation)

将生成的轨迹在机器人上执行,并评估性能。