世界模型
World Model 世界模型
在人工智能(尤其是强化学习、机器人学、认知科学)领域中,指的是:智能体(agent)对环境运行规律的内部表征和预测机制。智能体用它来理解过去、预测未来、计划行动。
模块 | 作用 | 类比 |
---|---|---|
表征(Encoder) | 把观测(图片、数据)压缩成内部特征 | 人脑感知 |
动态模型(Dynamics) | 根据当前特征和动作预测下一步特征 | 人脑推理 |
观测生成器(Decoder) | 从内部特征还原出具体观测(比如图像) | 人脑想象 |
奖励预测器(Optional) | 预测执行某动作后能得到多少奖励 | 经验判断 |
理论基础
预测学习 (Predictive Learning)
世界模型本质上就是一种预测学习: 给定当前状态和动作,预测未来的状态。这种思想最早来源于控制理论(如卡尔曼滤波器)和心理学(人脑预测未来感知的能力)。
具身认知 (Embodied Cognition)
智能体与环境的交互过程中,感知、动作和推理是不可分割的。世界模型强调不仅要被动感知,还要主动模拟、推演环境变化。
理性规划 (Model-Based Planning)
世界模型可以被视为强化学习中从model-free到model-based的演进:
Model-Free:不建模环境,只根据经验学习策略(如DQN、PPO)
Model-Based:构建环境模型,用于内部模拟决策(如Dreamer、PlaNet)
压缩感知(Compression and Representation Learning)
世界模型常通过学习一个低维、抽象的隐空间来表示环境状态。这与信息瓶颈理论(Information Bottleneck Theory)有关: 要在保留关键信息的同时最大限度地压缩无关细节。
数学基础
马尔可夫决策过程
自编码器
由于环境本身可能是部分可观测(POMDP),预测未来存在不确定性。世界模型需要表达这种不确定性:高斯分布
混合密度网络
贝叶斯神经网络
VAE
MPC