模仿学习
Learning from Demonstration LfD
LfD is a fast-growing field in robot learning. It aims for robots to imitate human experts while adapting to new situations.
通过让机器人观察人类或专家示范来学习任务,以避免直接编程或复杂的奖励函数设计。它适用于高维复杂任务或人类专家难以给出明确规则的场景。
旨在从有限示范中学习到策略,使机器人能够执行类似专家的动作。核心问题包括如何表示专家示范、如何解决分布偏移(covariate shift)以及如何在无监督信号下学习合理的策略。
相比于强化学习(Reinforcement Learning, RL),模仿学习具有训练速度快、收敛更稳定、易于应用的优势,尤其适用于复杂场景下奖励难以设计的问题。
核心流程
【示范采集】→【数据建模】→【策略生成】→【泛化适应】→【执行评估】
示范采集(Demonstration Collection)
从人类或其他代理采集示范样本。
采集方式:
- 直接示范(Kinesthetic Teaching):通过手动拖动机器人进行操作。
- 远程操控(Teleoperation):通过操控杆或 VR 进行控制。
- 视觉采集(Vision-based Observation):通过摄像头、传感器被动采集。
采集内容: - 关节空间轨迹(Joint Space)
- 工作空间轨迹(Workspace Trajectory)
- 末端执行器轨迹(End-Effector Pose)
数据建模(Trajectory Encoding)
将采集的轨迹数据转化为可用于学习的数学模型。
主流建模方法:运动基元(Motion Primitives)
方法 | 中文名称 | 特点 | 适用场景 |
---|---|---|---|
DMP |
动态运动基元 |
动态系统建模,良好的稳定性 弹簧阻尼模型 |
周期性、目标导向运动 |
ProMP | 概率运动基元 | 基于高斯分布,概率建模 支持不确定性 |
多演示,任务泛化 |
KMP | 核化运动基元 | 核函数建模,适配高维数据 利用核函数提升泛化能力 |
高维空间,复杂形状轨迹 |
TP- GMM | 高斯混合模型 | 多参考系学习,适配复杂任务 带时间参数或任务参数 |
多工况,多坐标系任务 |
建模空间:
- 关节空间(Joint Space)
- 工作空间(Workspace)
- Lie Group /流形空间(SE (3), SO (3))
策略生成(Policy Generation)
从建模结果中生成轨迹执行策略。
方式:
- 轨迹回放(Trajectory Replay)
- 条件采样(Conditional Sampling)
- 优化生成(Optimization-based Planning)
- 强化学习微调(RL Fine-tuning)
- 使用运动规划(如 STOMP、CHOMP)进一步优化。
泛化适应(Generalization and Adaptation)
适应新环境、新目标或新约束。
泛化形式:
- 目标点变化(New Goals)
- 中间点约束(Via-Points)
- 环境变化(Novel Obstacles)
- 机器人变化(跨平台迁移)
- 观测视角变化(Frame Change)
适应工具:
- 条件概率更新(Bayesian Inference)
- 李群上的协方差调整(Pose Distribution Adaptation)
- 工作空间密度融合(Workspace Density Adaptation)
执行与评估(Execution and Evaluation)
将生成的轨迹在机器人上执行,并评估性能。
- 轨迹相似度(与示范轨迹的距离)
- 任务成功率(Task Success Rate)
- 适应性指标(对新场景的泛化能力)
- 执行时间(Planning and Execution Time)