正态分布 多维正态分布 协方差矩阵
定义
多元高斯分布是把一维正态分布推广到向量随机变量的分布。设 ,均值向量为 ,协方差矩阵为 。若 对称正定,则
的密度为
均值 决定分布中心,协方差矩阵 决定每个方向上的扩散尺度和变量之间的相关性。
记号与范围
是随机向量,,并且
的对角元是各变量方差,非对角元是成对协方差。普通密度公式只适用于 正定的情形;如果 只有半正定,分布仍可作为退化高斯分布存在,但质量集中在低维线性或仿射集合中,不能写成上面的 维普通 pdf。
二维独立与相关
若二维变量 独立,并且方差分别为 ,则
联合密度是两个一维高斯密度的乘积:
若 不独立,则依赖关系进入非对角协方差:
这时二次型 含有交叉项,等密度曲线会旋转。协方差为正时,两个变量倾向同向偏离;协方差为负时,两个变量倾向反向偏离。
对角化与归一化
多元高斯的归一化可由线性代数解释。对正定协方差矩阵作谱分解:
令
于是
正交变换 不改变体积元素,并且把协方差变为对角矩阵 。因此积分分裂为 个一维高斯积分:
这说明密度分母中的 来自所有主轴方向标准差的乘积。
线性变换
若 ,线性变换
仍服从高斯分布:
这条性质使多元高斯天然适合线性测量模型、误差传播和最小二乘估计。特别地,若观测误差 满足 ,则用 加权的二次型就是对应的负对数似然核心。
例子
两个传感器同时测量温度与湿度。若两个传感器误差独立, 是对角矩阵,温度误差不会提供湿度误差的信息。若环境扰动会同时抬高温度读数并降低湿度读数,则非对角协方差为负,联合高斯的等密度椭圆会倾斜;此时把两个变量分别处理会丢失相关结构。
边界条件
多元高斯的普通密度要求 正定,不能把奇异协方差直接代入 和 。当样本协方差病态或近奇异时,数值计算通常需要正则化、降维或使用稳定分解。高斯假设还意味着分布由均值和协方差完全决定;如果数据有厚尾、离群点或明显多峰结构,只靠多元高斯可能低估极端风险。
相关概念
- 加权最小二乘法:当高斯噪声协方差为 时,最小化 。
- BLUE定理:在只要求线性与无偏时,协方差加权的线性估计具有最小方差。
- 协方差矩阵:记录方差、协方差和主轴方向,是多元高斯的核心参数。